論文の概要: Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2504.00573v1
- Date: Tue, 01 Apr 2025 09:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:57.965786
- Title: Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models
- Title(参考訳): 検索言語モデルのための共有コンテキスト属性によるユーティリティベースの検索学習
- Authors: Yilong Xu, Jinhua Gao, Xiaoming Yu, Yuanhai Xue, Baolong Bi, Huawei Shen, Xueqi Cheng,
- Abstract要約: SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。
マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。
ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
- 参考スコア(独自算出の注目度): 51.608246558235166
- License:
- Abstract: Retrieval-Augmented Language Models boost task performance, owing to the retriever that provides external knowledge. Although crucial, the retriever primarily focuses on semantics relevance, which may not always be effective for generation. Thus, utility-based retrieval has emerged as a promising topic, prioritizing passages that provides valid benefits for downstream tasks. However, due to insufficient understanding, capturing passage utility accurately remains unexplored. This work proposes SCARLet, a framework for training utility-based retrievers in RALMs, which incorporates two key factors, multi-task generalization and inter-passage interaction. First, SCARLet constructs shared context on which training data for various tasks is synthesized. This mitigates semantic bias from context differences, allowing retrievers to focus on learning task-specific utility for better task generalization. Next, SCARLet uses a perturbation-based attribution method to estimate passage-level utility for shared context, which reflects interactions between passages and provides more accurate feedback. We evaluate our approach on ten datasets across various tasks, both in-domain and out-of-domain, showing that retrievers trained by SCARLet consistently improve the overall performance of RALMs.
- Abstract(参考訳): Retrieval-Augmented Language Modelsは、外部知識を提供するレトリバーによって、タスクのパフォーマンスを向上する。
決定的ではあるが、レトリバーは主に意味論の関連性に焦点を当てている。
このように、ユーティリティベースの検索が有望なトピックとして現れ、下流タスクに有効なメリットを提供するパスを優先順位付けしている。
しかし、理解が不十分なため、パスユーティリティーの取得は未解明のままである。
本研究で提案するSCARLetは,複数タスクの一般化と経路間相互作用という2つの重要な要素を組み込んだ,ALMにおけるユーティリティベース検索のトレーニングフレームワークである。
まず、SCARLetは、様々なタスクのためのトレーニングデータを合成する共有コンテキストを構築する。
これにより、コンテキスト差からのセマンティックバイアスを緩和し、検索者はタスク固有のユーティリティを学習してタスクの一般化を改善することができる。
次に、SCARLetは摂動に基づく帰属法を用いて、共有コンテキストの通過レベルユーティリティを推定し、通過間の相互作用を反映し、より正確なフィードバックを提供する。
我々は、ドメイン内およびドメイン外の両方のタスクにまたがる10のデータセットに対するアプローチを評価し、SCARLetによってトレーニングされたレトリバーが、ALMの全体的なパフォーマンスを一貫して改善していることを示す。
関連論文リスト
- Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。
我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。
我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文 参考訳(メタデータ) (2024-10-21T09:18:30Z) - MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents [28.419007116364668]
MLLMエージェントは、マルチモーダルなタスク関連軌道データを取得することで、複雑なエンボディされたタスクの可能性を実証する。
現在の検索手法は、主に軌跡におけるテキストや視覚的手がかりの表面レベルでの類似性に注目し、その特定のタスクに対する有効性を無視している。
本稿では,MLLMレシーバを微調整するためのインタラクションデータを活用することで,組込みエージェントの性能を向上させる新しい手法であるMLLM as ReTriever (MART)を提案する。
論文 参考訳(メタデータ) (2024-10-04T14:10:39Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。
本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。