論文の概要: Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction
- arxiv url: http://arxiv.org/abs/2603.04783v1
- Date: Thu, 05 Mar 2026 04:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.062081
- Title: Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction
- Title(参考訳): 文脈慣性を破る: 安定多軸相互作用のための単軸アンカーによる強化学習
- Authors: Xingwu Chen, Zhanqiu Zhang, Yiwen Guo, Difan Zou,
- Abstract要約: textbfReinforcement textbfLearning with textbfTurn textbfRLSTA。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 49.03500737694832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs demonstrate strong reasoning capabilities when provided with full information in a single turn, they exhibit substantial vulnerability in multi-turn interactions. Specifically, when information is revealed incrementally or requires updates, models frequently fail to integrate new constraints, leading to a collapse in performance compared to their single-turn baselines. We term the root cause as \emph{Contextual Inertia}: a phenomenon where models rigidly adhere to previous reasoning traces. Even when users explicitly provide corrections or new data in later turns, the model ignores them, preferring to maintain consistency with its previous (incorrect) reasoning path. To address this, we introduce \textbf{R}einforcement \textbf{L}earning with \textbf{S}ingle-\textbf{T}urn \textbf{A}nchors (\textbf{RLSTA}), a generalizable training approach designed to stabilize multi-turn interaction across diverse scenarios and domains. RLSTA leverages the model's superior single-turn capabilities as stable internal anchors to provide reward signals. By aligning multi-turn responses with these anchors, RLSTA empowers models to break contextual inertia and self-calibrate their reasoning based on the latest information. Experiments show that RLSTA significantly outperforms standard fine-tuning and abstention-based methods. Notably, our method exhibits strong cross-domain generalization (e.g., math to code) and proves effective even without external verifiers, highlighting its potential for general-domain applications.
- Abstract(参考訳): LLMは1ターンで完全な情報を提供する際に強い推論能力を示すが、多ターン相互作用において重大な脆弱性を示す。
具体的には、情報がインクリメンタルに公表されたり、更新が必要な場合、モデルは新しい制約を統合することができないことが多いため、シングルターンベースラインと比較してパフォーマンスが低下する。
根本原因を 'emph{Contextual Inertia} と呼び、モデルが以前の推論トレースに厳密に従属する現象である。
ユーザが修正や新しいデータを後回しに明示的に提供しても、モデルはそれらを無視し、以前の(正しくない)推論パスとの整合性を維持する。
これを解決するために、さまざまなシナリオやドメインにわたるマルチターンインタラクションを安定化するために設計された一般化可能なトレーニングアプローチである、 \textbf{R}einforcement \textbf{L}earning with \textbf{S}ingle-\textbf{T}urn \textbf{A}nchors (\textbf{RLSTA})を導入する。
RLSTAはモデルの優れたシングルターン機能を安定した内部アンカーとして活用し、報酬信号を提供する。
マルチターン応答をアンカーに合わせることで、LSTAは最新の情報に基づいて、コンテキスト慣性を破り、推論を自己校正するモデルに権限を与える。
実験の結果,RTSTAは標準微調整法や禁忌法よりも有意に優れていた。
特に,本手法は,外部検証を必要とせずに,強力なクロスドメイン一般化(例えば,コードへの数学)を示し,汎用ドメインアプリケーションの可能性を強調した。
関連論文リスト
- ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation [4.265094703231012]
ハンズフリーアライメントフレームワークである textbfALIVE (emphAdrial Learning with Instructive Verbal Evaluation) を導入する。
対人学習とインストラクティブな言語フィードバックを結合することにより、ALIVEはモデルが生のコーパスから直接評価基準を内在化できるようにする。
同一のデータと計算により、ALIVEはクロスドメインの一般化を著しく改善し、自己補正率も向上した。
論文 参考訳(メタデータ) (2026-02-05T09:20:23Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - FIRE: Multi-fidelity Regression with Distribution-conditioned In-context Learning using Tabular Foundation Models [3.8824066002669855]
MF(Multi-fidelity)レグレッションは、極端なデータ不均衡のレギュレーションでしばしば機能する。
トレーニングフリーなMFフレームワークであるFIREを紹介する。
Fireは、最先端のGPベースまたはディープラーニングのMF回帰メソッドの7つよりもパフォーマンスタイムのトレードオフが強い。
論文 参考訳(メタデータ) (2026-01-29T22:29:58Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Towards Foundation Models for Zero-Shot Time Series Anomaly Detection: Leveraging Synthetic Data and Relative Context Discrepancy [33.68487894996624]
時系列異常検出(TSAD)は重要な課題であるが、見えないデータに一般化するモデルを開発することは大きな課題である。
我々は、新しい事前学習パラダイムの上に構築されたTSADの新たな基盤モデルであるtextttTimeRCDを紹介した。
textttTimeRCD はゼロショット TSAD において,既存の汎用および異常固有の基盤モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:05:15Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。