論文の概要: DMA: Online RAG Alignment with Human Feedback
- arxiv url: http://arxiv.org/abs/2511.04880v1
- Date: Thu, 06 Nov 2025 23:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.621001
- Title: DMA: Online RAG Alignment with Human Feedback
- Title(参考訳): DMA: オンラインRAGアライメントとヒューマンフィードバック
- Authors: Yu Bai, Yukai Miao, Dawei Wang, Li Chen, Fei Long, Rundi Zhai, Dan Li, Yanyu Ren, Tianfeng Liu, Hongtao Xie, Ce Yang, Xuhui Cai,
- Abstract要約: マルチグラニュラリティなヒューマンフィードバックを取り入れたオンライン学習フレームワークであるDynamic Memory Alignment (DMA)を紹介した。
DMAは、ドキュメント、リスト、レスポンスレベルの信号をコヒーレントな学習パイプラインにまとめる。
オフラインでは、DMAは競合検索を保ちながら、会話型QAで顕著な利得を得る。
- 参考スコア(独自算出の注目度): 39.62171539147465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems often rely on static retrieval, limiting adaptation to evolving intent and content drift. We introduce Dynamic Memory Alignment (DMA), an online learning framework that systematically incorporates multi-granularity human feedback to align ranking in interactive settings. DMA organizes document-, list-, and response-level signals into a coherent learning pipeline: supervised training for pointwise and listwise rankers, policy optimization driven by response-level preferences, and knowledge distillation into a lightweight scorer for low-latency serving. Throughout this paper, memory refers to the model's working memory, which is the entire context visible to the LLM for In-Context Learning. We adopt a dual-track evaluation protocol mirroring deployment: (i) large-scale online A/B ablations to isolate the utility of each feedback source, and (ii) few-shot offline tests on knowledge-intensive benchmarks. Online, a multi-month industrial deployment further shows substantial improvements in human engagement. Offline, DMA preserves competitive foundational retrieval while yielding notable gains on conversational QA (TriviaQA, HotpotQA). Taken together, these results position DMA as a principled approach to feedback-driven, real-time adaptation in RAG without sacrificing baseline capability.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、しばしば静的検索に依存し、進化する意図やコンテンツドリフトへの適応を制限する。
動的メモリアライメント(Dynamic Memory Alignment, DMA)は, 対話型環境におけるランキングの整合性を確保するために, 多粒性フィードバックを体系的に組み込んだオンライン学習フレームワークである。
DMAは、文書、リスト、レスポンスレベルの信号をコヒーレントな学習パイプラインに編成する: ポイントワイドおよびリストワイドなランク付けのための教師付きトレーニング、応答レベルの優先順位によって駆動されるポリシー最適化、低レイテンシサービスのための軽量スコアラーへの知識蒸留。
本論文を通じて、メモリはモデルが動作しているメモリを指しており、それはLLM for In-Context Learningのコンテキスト全体である。
私たちは、デュアルトラック評価プロトコルのデプロイメントを採用しています。
i) 各フィードバックソースのユーティリティを分離するための大規模オンラインA/Bアブリケーション
(ii)知識集約型ベンチマークのオフラインテストがほとんどない。
オンラインでは、数ヶ月の産業展開により、人間のエンゲージメントが大幅に改善されている。
オフラインでは、DMAは競争基盤検索を維持し、会話QA(TriviaQA、HotpotQA)で顕著な利益を得ている。
これらの結果は,RAGにおけるフィードバック駆動型リアルタイム適応の原則的アプローチとして,ベースライン能力を犠牲にすることなくDMAを位置づけた。
関連論文リスト
- Domain-Aware RAG: MoL-Enhanced RL for Efficient Training and Scalable Retrieval [5.640810636056805]
MoLERは、MoL強化強化学習を用いて検索を最適化するドメイン認識RAG手法である。
MoLERはRAGシステムの知識ギャップを埋め、特殊なドメインで堅牢でスケーラブルな検索を可能にする。
論文 参考訳(メタデータ) (2025-09-08T13:04:07Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing [4.874077691069634]
Retrieval Augmented Generation (RAG)は、言語モデルの知識を高め、AI生成幻覚を減らす強力な能力を示している。
現在のマルチラウンドRAGシステムは、十分な情報が既に取得されている場合でも検索を続けることができる。
本稿では,RAGシステムの自己認識と多ラウンド検索機能を強化するための新しいフレームワークSIM-RAGを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:39:35Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。