論文の概要: Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning
- arxiv url: http://arxiv.org/abs/2505.13081v1
- Date: Mon, 19 May 2025 13:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.605676
- Title: Walking the Tightrope: Disentangling Beneficial and Detrimental Drifts in Non-Stationary Custom-Tuning
- Title(参考訳): タイトロープの歩行:非定常カスタムチューニングにおける便益と有害ドリフトの遠ざかる
- Authors: Xiaoyu Yang, Jie Lu, En Yu,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)において,批判的だが見落とされがちな現象を明らかにする。
我々は、概念ドリフト理論とRFTプロセスの間の理論的橋渡しを確立する先駆者である。
本稿では,有害な概念ドリフトから有益な分布適応を体系的に切り離す新しい対物対応RFTを提案する。
- 参考スコア(独自算出の注目度): 16.97188816362991
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper uncovers a critical yet overlooked phenomenon in multi-modal large language models (MLLMs): detrimental concept drift within chain-of-thought (CoT) reasoning during non-stationary reinforcement fine-tuning (RFT), where reasoning token distributions evolve unpredictably, thereby introducing significant biases in final predictions. To address this, we are pioneers in establishing the theoretical bridge between concept drift theory and RFT processes by formalizing CoT's autoregressive token streams as non-stationary distributions undergoing arbitrary temporal shifts. Leveraging this framework, we propose a novel counterfact-aware RFT that systematically decouples beneficial distribution adaptation from harmful concept drift through concept graph-empowered LLM experts generating counterfactual reasoning trajectories. Our solution, Counterfactual Preference Optimization (CPO), enables stable RFT in non-stationary environments, particularly within the medical domain, through custom-tuning of counterfactual-aware preference alignment. Extensive experiments demonstrate our superior performance of robustness, generalization and coordination within RFT. Besides, we also contributed a large-scale dataset CXR-CounterFact (CCF), comprising 320,416 meticulously curated counterfactual reasoning trajectories derived from MIMIC-CXR. Our code and data are public.
- Abstract(参考訳): 本稿では,マルチモーダルな大規模言語モデル (MLLM) において,非定常強化微調整 (RFT) におけるデトリメンタルな概念の漂流現象を明らかにする。
これを解決するために、我々はCoTの自己回帰トークンストリームを任意の時間的シフトを受ける非定常分布として定式化し、概念ドリフト理論とRFT過程の理論的ブリッジを確立するパイオニアである。
本枠組みを応用して, 有害な概念ドリフトから有益な分布適応を系統的に分離する, 反ファクト対応RTTを提案する。
提案手法であるCounterfactual Preference Optimization (CPO) は,非定常環境,特に医療領域内において,対ファクトリアル・アウェア・プライオリティアライメントのカスタマイズにより,安定したRFTを実現する。
広汎な実験は、RFT内のロバスト性、一般化、調整の優れた性能を示す。
また,MIMIC-CXRから得られた320,416個の細心の注意を払って計算した大規模データセットCXR-CounterFact (CCF) も提案した。
私たちのコードとデータは公開されています。
関連論文リスト
- Beyond Patterns: Harnessing Causal Logic for Autonomous Driving Trajectory Prediction [10.21659221112514]
本稿では、因果推論を利用して予測堅牢性、一般化、精度を向上させる新しい軌道予測フレームワークを提案する。
本研究は、軌跡予測の因果推論の可能性を強調し、ロバストな自律運転システムへの道を開くものである。
論文 参考訳(メタデータ) (2025-05-11T05:56:07Z) - Rolling with the Punches: Resilient Contrastive Pre-training under Non-Stationary Drift [16.97188816362991]
重要な課題は、動的データストリーム上のモデルの効果的な事前トレーニングである。
まず、従来の対照的な事前学習手法が、概念のドリフトに対して特に脆弱であることを明らかにする。
本稿では,因果的介入を取り入れた新しい手法であるResilient Contrastive Pre-training (RCP)を提案する。
論文 参考訳(メタデータ) (2025-02-11T15:09:05Z) - Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - SOFARI: High-Dimensional Manifold-Based Inference [8.860162863559163]
我々は2つのSOFARI変種を導入し、強力で弱い潜伏要因を扱えるようにし、後者は広範囲のアプリケーションをカバーする。
そこで我々は,SOFARIが潜在左因子ベクトルと特異値の両方に対して偏差補正推定器を提供し,その平均零正規分布を疎分散で楽しむことを示す。
本稿では,SOFARIの有効性を概説し,シミュレーション例による理論結果の正当化と,経済予測における実データの適用について述べる。
論文 参考訳(メタデータ) (2023-09-26T16:01:54Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Residual Pathway Priors for Soft Equivariance Constraints [44.19582621065543]
本稿では,厳密な制約をソフトな事前に変換する手法としてResidual Pathway Priors(RPP)を紹介する。
RPPは近似対称性や不特定対称性に耐性があり、対称性が正確であっても完全に制約されたモデルと同じくらい効果的である。
論文 参考訳(メタデータ) (2021-12-02T16:18:17Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。