論文の概要: From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator
- arxiv url: http://arxiv.org/abs/2605.26403v1
- Date: Tue, 26 May 2026 00:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.511464
- Title: From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator
- Title(参考訳): 静的文脈から校正型対話型RL:アラインドシミュレータを用いた多ターン対話における分布シフトの緩和
- Authors: Xiaohua Wang, Jiakang Yuan, Zisu Huang, Muzhao Tian, Changze Lv, Kaitao Song, Tao Chen, Xiaoqing Zheng,
- Abstract要約: 研究コミュニティの長年の目標は、高度にインタラクティブなLDMベースの対話エージェントを開発することである。
最近の研究は、固定オフラインログ(Static Context RL)やプロンプトベースのシミュレータ(Interactive RL)を用いたポリシーの最適化に焦点をあてている。
両パラダイムは,文脈分布シフトによって根本的に制限されていることを示す。
本稿では,対話型RLとシミュレータアライメントを結合した統合フレームワークCalibrated Interactive RLを提案する。
- 参考スコア(独自算出の注目度): 33.62561779855603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A long-standing goal of the research community is to develop highly interactive LLM-based dialogue agents. Recent research focuses on optimizing policies based on fixed offline logs (Static Context RL) or using a prompt-based simulator (Interactive RL). In this work, we theoretically show that both paradigms are fundamentally limited by context distribution shift--a mismatch between dialogue histories observed during training and those encountered in real conversations. This shift compounds quadratically over turns and severely degrades dialogue quality. Specifically, we attribute this shift to two distinct sources: (i) policy-induced shift, arising from training on static histories rather than self-generated trajectories; and (ii) simulator-induced shift, stemming from discrepancies between simulated and real human behaviors. To address these challenges, we propose Calibrated Interactive RL, a unified framework that couples interactive RL with simulator alignment. By aligning the simulator with human interaction patterns, our approach reduces the sim-to-real gap and mitigates compounding distribution shifts. Experiments across multiple dialogue tasks confirm our theoretical analysis: (i) Interactive RL significantly outperforms the Static Context baseline by mitigating policy distribution shift; and (ii) calibrating simulators with our alignment method further bridges the sim-to-real gap, yielding state-of-the-art downstream performance.
- Abstract(参考訳): 研究コミュニティの長年の目標は、高度にインタラクティブなLDMベースの対話エージェントを開発することである。
最近の研究は、固定オフラインログ(Static Context RL)に基づくポリシーの最適化や、プロンプトベースのシミュレータ(Interactive RL)の利用に焦点を当てている。
本研究では,両パラダイムが文脈分布シフトによって根本的に制限されていることを理論的に示す。
このシフトは、交互に2次的に結合し、対話品質を著しく低下させる。
具体的には、このシフトを2つの異なるソースに当てはめます。
一 自生軌道ではなく、静的な歴史の訓練から生じる政策によるシフト、及び
(II)シミュレーションによって引き起こされる変化は、シミュレーションと実際の人間の行動の相違から生じる。
これらの課題に対処するために,対話型RLとシミュレータアライメントを結合した統合フレームワークCalibrated Interactive RLを提案する。
シミュレーションを人間のインタラクションパターンに合わせることで,シミュレートとリアルのギャップを減らし,複合分布シフトを緩和する。
複数の対話タスクにわたる実験は、我々の理論的分析を裏付ける。
(i)対話型RLは政策配分シフトを緩和することで静的コンテキストベースラインを著しく上回ります。
(II)アライメント法によるシミュレータの校正により,シム・トゥ・リアルギャップはさらに橋渡しされ,最先端の下流性能が得られる。
関連論文リスト
- Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors [61.610957638373826]
本研究では,実際のユーザ行動とシミュレーションユーザ行動の分布ギャップを計測する手法を提案する。
実会話とシミュレーション会話のデータセットが与えられた場合,本手法は各会話からユーザ行動の表現を抽出する。
ほとんどのシミュレータも同様に振る舞うが、いくつかは独立している。
論文 参考訳(メタデータ) (2026-05-08T15:09:25Z) - MUSE: Multi-Domain Chinese User Simulation via Self-Evolving Profiles and Rubric-Guided Alignment [15.586402133245313]
MUSEは、人間らしく、制御可能で、動作に一貫性のある応答を生成するために設計された中国のユーザーシミュレーションフレームワークである。
局所的な反応リアリズムと人間のような表現を改善するために,反復プロファイルの自己進化とロールリバーサル・スーパーバイザード・ファインタニングを提案する。
実験により、MUSEは発話レベルとセッションレベルの両方の評価において、強いベースラインを一貫して上回ることが示された。
論文 参考訳(メタデータ) (2026-04-15T13:01:00Z) - Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation [0.7031557790463293]
本研究では,日常の生活活動におけるインタラクションを固定することで,信頼できるユーザプロキシをシミュレートするエージェントフレームワークであるContextSimを紹介する。
嗜好を本物の人間に合わせるため、エージェントの内部思想をモデル化し、行動レベルと軌道レベルの両方で一貫性を強制する。
論文 参考訳(メタデータ) (2026-01-26T05:01:00Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - LitSim: A Conflict-aware Policy for Long-term Interactive Traffic Simulation [3.550570240658488]
本稿では,ログの介入を最小限に抑えて,現実主義を最大化する長期対話型シミュレーション手法を提案する。
具体的には、当社のアプローチでは、ログリプレイを使用してリアリズムを確実にし、潜在的な衝突を防ぐために必要な場合にのみ介入する。
エージェント間の相互作用を奨励し、紛争を解決し、非現実的な行動のリスクを減らす。
論文 参考訳(メタデータ) (2024-03-07T07:58:58Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Replicating Complex Dialogue Policy of Humans via Offline Imitation
Learning with Supervised Regularization [7.151589223349882]
ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。
教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。
本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
論文 参考訳(メタデータ) (2023-05-06T09:27:58Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。