論文の概要: Revela: Dense Retriever Learning via Language Modeling
- arxiv url: http://arxiv.org/abs/2506.16552v2
- Date: Mon, 13 Oct 2025 18:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:31.972779
- Title: Revela: Dense Retriever Learning via Language Modeling
- Title(参考訳): Revela: 言語モデリングによるDense Retriever Learning
- Authors: Fengyu Cai, Tong Chen, Xinran Zhao, Sihao Chen, Hongming Zhang, Sherry Tongshuang Wu, Iryna Gurevych, Heinz Koeppl,
- Abstract要約: Revelaは、言語モデリングによる自己教師型レトリバー学習のための統合トレーニングフレームワークである。
我々はRevelaをドメイン固有(CoIR)、推論集約(BRIGHT)、一般ドメインベンチマーク(BEIR)で評価する。
BEIRの教師なし SoTA を1000倍のトレーニングデータと10倍の計算量で実現している。
- 参考スコア(独自算出の注目度): 75.19266063851319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrievers play a vital role in accessing external and specialized knowledge to augment language models (LMs). Training dense retrievers typically requires annotated query-document pairs, which are costly to create and scarce in specialized domains (e.g., code) or in complex settings (e.g., requiring reasoning). These practical challenges have sparked growing interest in self-supervised retriever learning. Since LMs are trained to capture token-level dependencies through a self-supervised learning objective (i.e., next token prediction), we can analogously cast retrieval as learning dependencies among chunks of tokens. This analogy naturally leads to the question: How can we adapt self-supervised learning objectives in the spirit of language modeling to train retrievers? To answer this question, we introduce Revela, a unified and scalable training framework for self-supervised retriever learning via language modeling. Revela models semantic dependencies among documents by conditioning next token prediction on local and cross-document context through an in-batch attention mechanism. This attention is weighted by retriever-computed similarity scores, enabling the retriever to be optimized as part of language modeling. We evaluate Revela on domain-specific (CoIR), reasoning-intensive (BRIGHT), and general-domain (BEIR) benchmarks across various retriever backbones. Without annotated or synthetic query-document pairs, Revela surpasses larger supervised models and proprietary APIs on CoIR and matches them on BRIGHT. It achieves BEIR's unsupervised SoTA with ~ 1000x less training data and 10x less compute. Performance increases with batch size and model size, highlighting Revela's scalability and its promise for self-supervised retriever learning.
- Abstract(参考訳): デンスレトリバーは、言語モデル(LM)の拡張に外部および専門知識にアクセスする上で重要な役割を担っている。
厳密なレトリバーのトレーニングには、典型的には注釈付きクエリドキュメントペアが必要で、特殊なドメイン(コードなど)や複雑な設定(推論など)の作成と不足に費用がかかる。
これらの実践的な課題は、自己監督型レトリバー学習への関心の高まりを招いた。
LMは自己教師付き学習目標(次のトークン予測)を通じてトークンレベルの依存関係をキャプチャするために訓練されるため、トークンの塊間での学習依存性として検索を類似的にキャストすることができる。
言語モデリングの精神に自己教師型学習目標を適応させるにはどうすればよいのか?
この質問に答えるために,言語モデリングによる自己教師型レトリバー学習のための,統一的でスケーラブルなトレーニングフレームワークであるRevelaを紹介した。
Revelaは、バッチ内のアテンションメカニズムを通じて、ローカルおよびクロスドキュメントコンテキストに次のトークン予測を条件付けることで、ドキュメント間のセマンティック依存関係をモデル化する。
この注意は、レトリバーが計算した類似度スコアによって重み付けされ、レトリバーを言語モデリングの一部として最適化することができる。
Revela on domain-specific (CoIR), reasoning-intensive (BRIGHT), general-domain (BEIR) benchmarks across various retriever backbones。
注釈付きまたは合成クエリ-ドキュメントペアなしで、RevelaはCoIR上のより大きな教師付きモデルとプロプライエタリなAPIを越え、BRIGHTにマッチする。
BEIRの教師なしSoTAは、約1000倍のトレーニングデータと10倍の計算量で達成される。
バッチサイズとモデルサイズによってパフォーマンスが向上し、Revelaのスケーラビリティと自己教師型レトリバー学習の約束が強調される。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models [51.608246558235166]
SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。
マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。
ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2025-04-01T09:28:28Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling [42.67141329779589]
Grouped Cross Attentionは、トレーニング前のコンテキスト長の1000倍に一般化することができる。
実験により,16Mコンテキスト長のパスキー検索において,GAAに基づくモデルがほぼ完全であることが示された。
論文 参考訳(メタデータ) (2024-10-02T15:18:34Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Can Retriever-Augmented Language Models Reason? The Blame Game Between
the Retriever and the Language Model [33.729248437727634]
事前訓練された言語モデルをレトリバーで拡張することは、共通のNLP問題を効果的に解決する可能性を示している。
我々は,一般的な検索言語モデルであるkNN-LM,REALM,DPR+FiD,Contriever+ATLAS,Contriever+Flan-T5の長所と短所を評価する。
論文 参考訳(メタデータ) (2022-12-18T19:27:41Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。