論文の概要: MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.27186v1
- Date: Tue, 26 May 2026 15:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.388269
- Title: MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation
- Title(参考訳): MAIGO:歴史をたどったオンライン自己蒸留による会話の損失軽減
- Authors: Haoyu Zheng, Yun Zhu, Shu Yuan, Shangming Chen, Qing Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang,
- Abstract要約: 大規模な言語モデルは、しばしば完全に指定されたプロンプトからタスクを解くが、同じ要求が複数のターンに広がると分解する。
本研究は, モデル自体の方針から, 履歴をクリアした基準を用いて汚染を低減させる, オンライン自己蒸留法であるMAIGOを提案する。
ミドルターンの場合、MAIGOは、ユーザ可視のシャードプレフィックスを保持しながら、事前のアシスタント応答を削除します。
- 参考スコア(独自算出の注目度): 51.32912774464992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models often solve tasks from a fully specified prompt but degrade when the same requirements unfold over multiple turns, known as the lost-in-conversation (LiC) gap. We trace part of this degradation to self-contamination: intermediate assistant replies enter later context and carry early deviations forward. Motivated by this mechanism, we propose MAIGO, an on-policy self-distillation method that reduces this contamination using history-cleaned references from the model's own policy. For middle turns, MAIGO removes prior assistant replies while preserving the user-visible sharded prefix; for answer turns, it distills from paired full-view references conditioned on the completed user-side dialogue. A reliability weight downweights middle-turn samples that disagree with the clean reference. MAIGO requires no verifier rewards, state labels, or inference-time scaffolding. Under the LiC paired-view protocol with deterministic verifiers, MAIGO improves Qwen2.5-7B-Instruct SHARDED accuracy from 52.8 to 66.1 and the SHARDED/FULL ratio from 66.5% to 84.1%, while keeping FULL accuracy within 2.3 points. These results show that self-contamination is a trainable component of the LiC gap.
- Abstract(参考訳): 大規模な言語モデルは、しばしば完全に指定されたプロンプトからタスクを解くが、同じ要求が複数のターンに広がると分解される(Lin-in-conversation (LiC)ギャップ)。
我々は、この劣化の一部を自己汚染に遡る: 中間アシスタント応答は後続の文脈に入り、早期の偏差を前倒しする。
本機構を応用したMAIGOは, モデル自体の政策からヒストリクリーな基準を用いて汚染を低減させる, オンライン自己蒸留方式を提案する。
ミドルターンの場合、MAIGOは、ユーザ可視のシャードプレフィックスを保持しながら、事前のアシスタント応答を削除します。
信頼性の低下は、クリーン基準に反する中ターンサンプルを減少させる。
MAIGOは検証者報酬、状態ラベル、推論時の足場を必要としない。
決定論的検証を伴うLiCペアビュープロトコルの下で、MAIGOはQwen2.5-7B-Instruct SHARDED精度を52.8から66.1に、SHARDED/FULL比を66.5%から84.1%に改善し、FULL精度を2.3ポイントに維持する。
これらの結果から, 自己汚染はLiCギャップのトレーニング可能な成分であることがわかった。
関連論文リスト
- Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models [9.281774217584289]
CyberCorrectは、大規模言語モデルの自己訂正を形式化するフレームワークである。
タイプ指向補正制御器は、診断されたエラーカテゴリに基づいて修理指示を生成する。
収束判定器は、制御理論から適応された安定性基準を用いて繰り返し終了を決定する。
論文 参考訳(メタデータ) (2026-05-17T07:47:34Z) - A Heterogeneous Temporal Memory Governance Framework for Long-Term LLM Persona Consistency [2.447989276487424]
大規模な言語モデルは、多くの場合、事実喪失、タイムラインの混乱、ペルソナの漂流、長距離相互作用時の安定性の低下に悩まされる。
本稿では,長期対話のための外部時間記憶ガバナンスフレームワークARPMを紹介する。
我々は、ARPMが連続性をトレース可能、監査可能、転送可能なガバナンス問題として扱うことを示す。
論文 参考訳(メタデータ) (2026-05-14T13:12:49Z) - When Reasoning Traces Become Performative: Step-Level Evidence that Chain-of-Thought Is an Imperfect Oversight Channel [5.106950500256654]
CoT(Chain-of- Thought)トレースは、言語モデルの能力向上とモデルの振る舞いの監査にますます利用されている。
我々は、この仮定を、回答コミットプロキシを中心に構築されたステップレベルのDect-Classify-Compareフレームワークでテストする。
9つのモデルと7つの推論ベンチマーク、潜在コミットメント、明示的な回答到着は平均61.9%のステップで一致している。
論文 参考訳(メタデータ) (2026-05-12T08:24:47Z) - Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents [6.158612515104146]
エージェントフィードバックとレビュアーフィードバックのトレードオフを測定するために、ヘルプフルネス・ハームフルネスメトリクスを導入します。
我々はBFCLとTau2-Bench(マルチターンステートフルシナリオ)に対するアプローチを評価し、無関係検出では+5.5%、マルチターンタスクでは+7.1%を達成した。
GPT-4oでは,評価モデルo3-miniが3:1の利益率と2.1:1の利益率を達成した。
論文 参考訳(メタデータ) (2026-04-29T22:09:47Z) - Reasoning or Rationalization? The Role of Justifications in Masked Diffusion Models for Fact Verification [0.0]
マスケ拡散言語モデル(Masked Diffusion Language Models)は、トークンを逐次生成し、推論に先立って答える戦略の恩恵を受ける。
拡散過程の早い段階でMDLMは検証に収束し, 正当化が完了する前に解決される大域的アンカーとして扱う。
実験の結果、このモデルは56%のケースで誤った強制判断を合理化しており、判定は正当性に強く依存していることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-01T17:18:05Z) - GATES: Self-Distillation under Privileged Context with Consensus Gating [89.62339954332248]
我々は、監督が信頼できない環境で自己蒸留を研究する。
非対称な文脈で回答する文書に焦点をあてる。
複数の文書ベース推論トレースをサンプリングすることにより、教師のコンセンサスからオンラインでの監督を導出する。
論文 参考訳(メタデータ) (2026-02-24T05:56:20Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。