論文の概要: Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval
- arxiv url: http://arxiv.org/abs/2504.05181v1
- Date: Mon, 07 Apr 2025 15:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:15.480964
- Title: Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval
- Title(参考訳): 生成情報検索のための軽量・直接文書関連最適化
- Authors: Kidist Amde Mekonnen, Yubao Tang, Maarten de Rijke,
- Abstract要約: 生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
- 参考スコア(独自算出の注目度): 49.669503570350166
- License:
- Abstract: Generative information retrieval (GenIR) is a promising neural retrieval paradigm that formulates document retrieval as a document identifier (docid) generation task, allowing for end-to-end optimization toward a unified global retrieval objective. However, existing GenIR models suffer from token-level misalignment, where models trained to predict the next token often fail to capture document-level relevance effectively. While reinforcement learning-based methods, such as reinforcement learning from relevance feedback (RLRF), aim to address this misalignment through reward modeling, they introduce significant complexity, requiring the optimization of an auxiliary reward function followed by reinforcement fine-tuning, which is computationally expensive and often unstable. To address these challenges, we propose direct document relevance optimization (DDRO), which aligns token-level docid generation with document-level relevance estimation through direct optimization via pairwise ranking, eliminating the need for explicit reward modeling and reinforcement learning. Experimental results on benchmark datasets, including MS MARCO document and Natural Questions, show that DDRO outperforms reinforcement learning-based methods, achieving a 7.4% improvement in MRR@10 for MS MARCO and a 19.9% improvement for Natural Questions. These findings highlight DDRO's potential to enhance retrieval effectiveness with a simplified optimization approach. By framing alignment as a direct optimization problem, DDRO simplifies the ranking optimization pipeline of GenIR models while offering a viable alternative to reinforcement learning-based methods.
- Abstract(参考訳): 生成情報検索(GenIR)は、文書検索を文書識別子(ドシデント)生成タスクとして定式化し、統一されたグローバル検索目的に向けてエンドツーエンドの最適化を可能にする、有望なニューラル検索パラダイムである。
しかし、既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、文書レベルの関連性を効果的に捉えることができないことが多い。
RLRF(Regressed Learning from Relevance feedback)のような強化学習に基づく手法は、報酬モデル(英語版)によるこのミスアライメントに対処することを目的としているが、補助報酬関数の最適化と、計算コストが高く、しばしば不安定な強化微調整を必要としている。
これらの課題に対処するため,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合し,明示的な報酬モデリングや強化学習の必要性を排除したダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
MS MARCO文書やNatural Questionsなどのベンチマークデータセットの実験結果によると、DDROは強化学習に基づく手法よりも優れており、MS MARCOではMRR@10が7.4%、自然質問では19.9%向上している。
これらの結果から, DDROが簡易最適化手法により検索効率を向上させる可能性が示唆された。
直接最適化問題としてアライメントをフレーミングすることにより、DDROはGenIRモデルのランキング最適化パイプラインを単純化し、強化学習ベースの手法に代わる実行可能な代替手段を提供する。
関連論文リスト
- RPO: Retrieval Preference Optimization for Robust Retrieval-Augmented Generation [33.85528514353727]
本稿では,検索関連性に基づいた多元的知識を適応的に活用するRetrieval Preference Optimization (RPO)を提案する。
RPOは、トレーニングにおける検索関連性の認識を定量化する唯一のRAG指定アライメントアプローチである。
4つのデータセットの実験では、RPOは追加のコンポーネントを使わずに、RAGを4~10%精度で上回っている。
論文 参考訳(メタデータ) (2025-01-23T14:58:56Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - A Generative Model for Relation Extraction and Classification [23.1277041729626]
関係抽出・分類のための新しい生成モデル(GREC)を提案する。
本稿では、ソースおよびターゲットシーケンスの様々なエンコーディング表現について検討し、3つのベンチマークREデータセット上でGRECが最先端のパフォーマンスを達成できる効果的なスキームを設計する。
我々のアプローチは1つのパスで文からすべての関係三重項を抽出するために拡張することができる。
論文 参考訳(メタデータ) (2022-02-26T21:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。