論文の概要: Learning Page Order in Shuffled WOO Releases
- arxiv url: http://arxiv.org/abs/2602.11040v1
- Date: Wed, 11 Feb 2026 17:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.222465
- Title: Learning Page Order in Shuffled WOO Releases
- Title(参考訳): シャッフルWOOリリースにおけるページ順序の学習
- Authors: Efe Kahraman, Giulio Tosato,
- Abstract要約: ページ埋め込みを用いて, 5,461 個のシャッフル WOO 文書 (情報公開の自由度) のページ注文について検討した。
我々は、ポインタネットワーク、Seq2seq変換器、特殊なペアランキングモデルを含む5つの手法を比較した。
最高のパフォーマンスのアプローチは文書を15ページまで並べ替えることに成功し、Kendallのタウは短い文書の0.95ページ(2-5ページ)から15ページの0.72ページへと変化した。
我々は2つの予期せぬ失敗を観察する: Seq2seq 変圧器は長文の一般化に失敗し、カリキュラム学習は長文の直接訓練を39%下回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate document page ordering on 5,461 shuffled WOO documents (Dutch freedom of information releases) using page embeddings. These documents are heterogeneous collections such as emails, legal texts, and spreadsheets compiled into single PDFs, where semantic ordering signals are unreliable. We compare five methods, including pointer networks, seq2seq transformers, and specialized pairwise ranking models. The best performing approach successfully reorders documents up to 15 pages, with Kendall's tau ranging from 0.95 for short documents (2-5 pages) to 0.72 for 15 page documents. We observe two unexpected failures: seq2seq transformers fail to generalize on long documents (Kendall's tau drops from 0.918 on 2-5 pages to 0.014 on 21-25 pages), and curriculum learning underperforms direct training by 39% on long documents. Ablation studies suggest learned positional encodings are one contributing factor to seq2seq failure, though the degradation persists across all encoding variants, indicating multiple interacting causes. Attention pattern analysis reveals that short and long documents require fundamentally different ordering strategies, explaining why curriculum learning fails. Model specialization achieves substantial improvements on longer documents (+0.21 tau).
- Abstract(参考訳): 我々は,5,461個のシャッフルされたWOO文書(情報公開の自由度)をページ埋め込みを用いて文書ページの順序付けを行う。
これらの文書は、メール、法的テキスト、単一のPDFにコンパイルされたスプレッドシートなどの異種コレクションであり、セマンティックオーダリング信号は信頼できない。
我々は、ポインタネットワーク、Seq2seq変換器、特殊なペアランキングモデルを含む5つの手法を比較した。
最高のパフォーマンスのアプローチは文書を15ページまで並べ替えることに成功し、Kendallのタウは短い文書の0.95ページ(2-5ページ)から15ページの0.72ページへと変化した。
セク2セク変圧器は2~5ページで0.918から0.014に減少し,21~25ページではカリキュラム学習は39%の長文書で直接訓練が不十分である。
アブレーション研究では、学習された位置エンコーディングがセク2セックの故障に寄与する要因の1つであることが示唆されているが、劣化は全てのエンコーディング変種にわたって持続し、複数の相互作用の原因が示される。
注意パターン分析では、短い文書と長い文書は基本的に異なる順序付け戦略を必要としており、なぜカリキュラム学習が失敗するのかを説明する。
モデル特殊化は、より長いドキュメント(+0.21タウ)で大幅に改善される。
関連論文リスト
- Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation [0.0]
Cross-Document Topic-Alignedチャンキングは、コーパスレベルで知識を再構築する。
まず、文書間でトピックを特定し、各トピックにセグメントをマップし、それらを統一されたチャンクに合成する。
論文 参考訳(メタデータ) (2025-11-08T11:45:45Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding [12.706825602291266]
我々は、長い文書のランク付けのためのTransformerモデルを評価し、それらを単純なFirstPベースラインと比較した。
MS MARCO, TREC DLs, Robust04 では FirstP は NDCG と MRR で 5% 以上の性能を示した。
これは、モデルが長いコンテキストを処理できないことによるものではなく、関連するパスの位置バイアスによるものであると推測した。
論文 参考訳(メタデータ) (2022-07-04T08:54:43Z) - Robust PDF Document Conversion Using Recurrent Neural Networks [0.0]
本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。
ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。
17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
論文 参考訳(メタデータ) (2021-02-18T14:39:54Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。