論文の概要: Dual-View Training for Instruction-Following Information Retrieval
- arxiv url: http://arxiv.org/abs/2604.18845v1
- Date: Mon, 20 Apr 2026 21:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.498999
- Title: Dual-View Training for Instruction-Following Information Retrieval
- Title(参考訳): インストラクション追従型情報検索のためのデュアルビュートレーニング
- Authors: Qingcheng Zeng, Puxuan Yu, Aman Mehta, Fuheng Zhao, Rajhans Samdani,
- Abstract要約: 極性反転に基づく2視点データ合成戦略を提案する。
提案手法はFollowIRベンチマークの性能を45%向上させる。
- 参考スコア(独自算出の注目度): 9.741583305127994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-following information retrieval (IF-IR) studies retrieval systems that must not only find documents relevant to a query, but also obey explicit user constraints such as required attributes, exclusions, or output preferences. However, most retrievers are trained primarily for semantic relevance and often fail to distinguish documents that match the topic from those that satisfy the instruction. We propose a dual-view data synthesis strategy based on polarity reversal: given a query, a document that is relevant under the instruction, and a hard negative that matches the query but violates the instruction, we prompt an LLM to generate a complementary instruction under which the two documents swap relevance labels. By presenting the same document pair under complementary instructions that invert their relevance labels, the training signal forces the retriever to reconsider the same candidate set through the instruction, rather than relying on fixed topical cues. On a 305M-parameter encoder, our method improves performance on the FollowIR benchmark by 45%, surpassing general-purpose embedding models of comparable or larger scale. Through head-to-head comparisons at matched data budgets, we further show that data diversity and instruction supervision play complementary roles: the former preserves general retrieval quality, while the latter improves instruction sensitivity. These results highlight the value of targeted data synthesis for building retrieval systems that are both broadly capable and instruction-aware.
- Abstract(参考訳): IF-IR(Instruction-following Information Search)は、クエリに関連するドキュメントを見つけるだけでなく、要求される属性、除外、出力の優先順位などの明示的なユーザ制約に従う必要がある検索システムを研究する。
しかし、ほとんどのレトリバーは、主に意味的関連性のために訓練されており、しばしば、そのトピックにマッチする文書と、その命令を満たす文書を区別することができない。
本稿では,極性反転に基づく2視点データ合成戦略を提案する。クエリと命令の下で関係するドキュメントと,クエリにマッチするが命令に違反するハードネガティブとが与えられた場合,LLMに2つの文書が関連ラベルを交換する補完的命令を生成するように促す。
関連ラベルを反転させる補完的な命令の下で同じ文書ペアを提示することにより、トレーニング信号は、固定されたトピックの手がかりに頼るのではなく、レトリバーが命令を通して設定された同じ候補を再考するように強制する。
305Mパラメトリエンコーダでは,FollowIRベンチマークの性能を45%向上し,最大規模の汎用埋め込みモデルを上回った。
さらに、一致したデータ予算におけるヘッド・ツー・ヘッド比較を通じて、データの多様性と指導監督が相補的な役割を担い、前者は一般的な検索品質を保ち、後者は命令感度を向上することを示した。
これらの結果は,広範かつ命令対応の検索システムを構築する上で,対象とするデータ合成の価値を強調した。
関連論文リスト
- Align then Train: Efficient Retrieval Adapter Learning [16.855103318831073]
本稿では,自己教師付きアライメントと教師付きアライメントの2つの段階において,検索アダプタを訓練するラベル効率のフレームワークを提案する。
MAIRベンチマークの実験は、6つのドメインで126の検索タスクにまたがっており、ERAが低ラベル設定での検索を改善することを示している。
論文 参考訳(メタデータ) (2026-04-03T19:04:42Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance [30.879299174443812]
本研究では,実際の文書やアノテーションを定式化し,大規模な言語モデルを用いて合成文書を生成する。
MARCO と BEIR のベンチマーク実験により,提案手法は従来の InfoNCE を用いたトレーニングよりも高い性能を示した。
論文 参考訳(メタデータ) (2025-03-29T22:33:22Z) - DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。
クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。
意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文 参考訳(メタデータ) (2025-02-11T03:25:42Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。