論文の概要: Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval
- arxiv url: http://arxiv.org/abs/2504.05181v2
- Date: Thu, 24 Apr 2025 23:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.419869
- Title: Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval
- Title(参考訳): 生成情報検索のための軽量・直接文書関連最適化
- Authors: Kidist Amde Mekonnen, Yubao Tang, Maarten de Rijke,
- Abstract要約: 生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
- 参考スコア(独自算出の注目度): 49.669503570350166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative information retrieval (GenIR) is a promising neural retrieval paradigm that formulates document retrieval as a document identifier (docid) generation task, allowing for end-to-end optimization toward a unified global retrieval objective. However, existing GenIR models suffer from token-level misalignment, where models trained to predict the next token often fail to capture document-level relevance effectively. While reinforcement learning-based methods, such as reinforcement learning from relevance feedback (RLRF), aim to address this misalignment through reward modeling, they introduce significant complexity, requiring the optimization of an auxiliary reward function followed by reinforcement fine-tuning, which is computationally expensive and often unstable. To address these challenges, we propose direct document relevance optimization (DDRO), which aligns token-level docid generation with document-level relevance estimation through direct optimization via pairwise ranking, eliminating the need for explicit reward modeling and reinforcement learning. Experimental results on benchmark datasets, including MS MARCO document and Natural Questions, show that DDRO outperforms reinforcement learning-based methods, achieving a 7.4% improvement in MRR@10 for MS MARCO and a 19.9% improvement for Natural Questions. These findings highlight DDRO's potential to enhance retrieval effectiveness with a simplified optimization approach. By framing alignment as a direct optimization problem, DDRO simplifies the ranking optimization pipeline of GenIR models while offering a viable alternative to reinforcement learning-based methods.
- Abstract(参考訳): 生成情報検索(GenIR)は、文書検索を文書識別子(ドシデント)生成タスクとして定式化し、統一されたグローバル検索目的に向けてエンドツーエンドの最適化を可能にする、有望なニューラル検索パラダイムである。
しかし、既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、文書レベルの関連性を効果的に捉えることができないことが多い。
RLRF(Regressed Learning from Relevance feedback)のような強化学習に基づく手法は、報酬モデル(英語版)によるこのミスアライメントに対処することを目的としているが、補助報酬関数の最適化と、計算コストが高く、しばしば不安定な強化微調整を必要としている。
これらの課題に対処するため,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合し,明示的な報酬モデリングや強化学習の必要性を排除したダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
MS MARCO文書やNatural Questionsなどのベンチマークデータセットの実験結果によると、DDROは強化学習に基づく手法よりも優れており、MS MARCOではMRR@10が7.4%、自然質問では19.9%向上している。
これらの結果から, DDROが簡易最適化手法により検索効率を向上させる可能性が示唆された。
直接最適化問題としてアライメントをフレーミングすることにより、DDROはGenIRモデルのランキング最適化パイプラインを単純化し、強化学習ベースの手法に代わる実行可能な代替手段を提供する。
関連論文リスト
- Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。
ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。
UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-23T06:43:54Z) - RPO: Retrieval Preference Optimization for Robust Retrieval-Augmented Generation [33.85528514353727]
本稿では,検索関連性に基づいた多元的知識を適応的に活用するRetrieval Preference Optimization (RPO)を提案する。
RPOは、トレーニングにおける検索関連性の認識を定量化する唯一のRAG指定アライメントアプローチである。
4つのデータセットの実験では、RPOは追加のコンポーネントを使わずに、RAGを4~10%精度で上回っている。
論文 参考訳(メタデータ) (2025-01-23T14:58:56Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - A Generative Model for Relation Extraction and Classification [23.1277041729626]
関係抽出・分類のための新しい生成モデル(GREC)を提案する。
本稿では、ソースおよびターゲットシーケンスの様々なエンコーディング表現について検討し、3つのベンチマークREデータセット上でGRECが最先端のパフォーマンスを達成できる効果的なスキームを設計する。
我々のアプローチは1つのパスで文からすべての関係三重項を抽出するために拡張することができる。
論文 参考訳(メタデータ) (2022-02-26T21:17:18Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。