論文の概要: Towards Robust Endogenous Reasoning: Unifying Drift Adaptation in Non-Stationary Tuning
- arxiv url: http://arxiv.org/abs/2604.15705v1
- Date: Fri, 17 Apr 2026 05:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.744771
- Title: Towards Robust Endogenous Reasoning: Unifying Drift Adaptation in Non-Stationary Tuning
- Title(参考訳): ロバストな内因性推論に向けて:非定常チューニングにおけるドリフト適応の統合
- Authors: Xiaoyu Yang, En Yu, Wei Duan, Jie Lu,
- Abstract要約: 本稿では,マルチモーダルなコンセプトドリフトに適応した包括的フレームワークを提案する。
反ファクト推論とドメイン知識を統合し、思考と知覚をまたいだ制御された摂動を実行する。
これは、コヒーレンス、意思決定精度、および極端な干渉に対する固有の堅牢性を推論する上で、優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 20.73438231053258
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Fine-Tuning (RFT) has established itself as a critical paradigm for the alignment of Multi-modal Large Language Models (MLLMs) with complex human values and domain-specific requirements. Nevertheless, current research primarily focuses on mitigating exogenous distribution shifts arising from data-centric factors, the non-stationarity inherent in the endogenous reasoning remains largely unexplored. In this work, a critical vulnerability is revealed within MLLMs: they are highly susceptible to endogenous reasoning drift, across both thinking and perception perspectives. It manifests as unpredictable distribution changes that emerge spontaneously during the autoregressive generation process, independent of external environmental perturbations. To adapt it, we first theoretically define endogenous reasoning drift within the RFT of MLLMs as the multi-modal concept drift. In this context, this paper proposes Counterfactual Preference Optimization ++ (CPO++), a comprehensive and autonomous framework adapted to the multi-modal concept drift. It integrates counterfactual reasoning with domain knowledge to execute controlled perturbations across thinking and perception, employing preference optimization to disentangle spurious correlations. Extensive empirical evaluations across two highly dynamic and safety-critical domains: medical diagnosis and autonomous driving. They demonstrate that the proposed framework achieves superior performance in reasoning coherence, decision-making precision, and inherent robustness against extreme interference. The methodology also exhibits exceptional zero-shot cross-domain generalization, providing a principled foundation for reliable multi-modal reasoning in safety-critical applications.
- Abstract(参考訳): 強化細調整(Reinforcement Fine-Tuning, RFT)は、複雑な人的価値とドメイン固有の要求を多モーダル大規模言語モデル(MLLM)にアライメントするための重要なパラダイムとして確立されている。
しかしながら、現在の研究は主にデータ中心の要因から生じる外因性分布の変化を緩和することに焦点を当てており、内因性推論に固有の非定常性はほとんど未解明のままである。
この研究では、MLLM内で重要な脆弱性が明らかにされ、思考と知覚の両方の観点から、内因性推論の漂流に非常に影響を受けやすい。
自己回帰生成過程中に自然に発生する予測不可能な分布変化であり、外部環境の摂動とは無関係である。
まず,MLLMのRFT内における内因性推論ドリフトをマルチモーダルな概念ドリフトとして理論的に定義する。
本稿では,マルチモーダルな概念ドリフトに適応した包括的かつ自律的なフレームワークであるCPO++を提案する。
反ファクト推論とドメイン知識を統合し、思考と知覚をまたいだ制御された摂動を実行する。
医療診断と自律運転の2つの非常にダイナミックで安全に重要な領域にわたる広範な経験的評価。
提案手法は, 協調性, 意思決定精度, 極端な干渉に対する本質的な堅牢性を推算する上で, 優れた性能を発揮することを示す。
この手法はまた、例外的なゼロショットクロスドメインの一般化を示し、安全クリティカルなアプリケーションにおける信頼性の高いマルチモーダル推論の基礎を提供する。
関連論文リスト
- Breakthrough the Suboptimal Stable Point in Value-Factorization-Based Multi-Agent Reinforcement Learning [45.92643622013714]
一般の場合、値分解のポテンシャル収束を特徴付ける安定点を導入する。
非最適安定点が性能の低下の主な原因であることを示す。
本稿では,MRVF(Multi-Round Value Factorization)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-07T01:05:13Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - EvoQRE: Modeling Bounded Rationality in Safety-Critical Traffic Simulation via Evolutionary Quantal Response Equilibrium [0.0]
EvoQREは、安全クリティカルなトラフィックインタラクションをモデル化するための原則化されたフレームワークである。
事前学習された生成世界モデルとエントロピー規則化された複製子ダイナミクスを統合する。
最先端の現実主義、安全基準の改善、多様な安全クリティカルシナリオの制御可能な生成を実現している。
論文 参考訳(メタデータ) (2026-01-09T09:21:36Z) - The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving [57.652356955571065]
最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップの推論ループに依存している。
我々は、この設計選択が、推論経路上のモデルの分布の崩壊にどのように敏感であるかを分析する。
本稿では,分散創造推論(DCR)について紹介する。これは,解トレースの確率測定を通じて,トレーニングを勾配流としてキャストする,統一的な変分目的である。
論文 参考訳(メタデータ) (2026-01-02T17:10:31Z) - The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning [16.97188816362991]
本稿では,マルチモーダル大言語モデル(MLLM)において,批判的だが見落とされがちな現象を明らかにする。
我々は、概念ドリフト理論とRFTプロセスの間の理論的橋渡しを確立する先駆者である。
本稿では,有害な概念ドリフトから有益な分布適応を体系的に切り離す新しい対物対応RFTを提案する。
論文 参考訳(メタデータ) (2025-05-19T13:13:38Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。