Fugu-MT 論文翻訳(概要): Patch the Distribution Mismatch: RL Rewriting Agent for Stable Off-Policy SFT

論文の概要: Patch the Distribution Mismatch: RL Rewriting Agent for Stable Off-Policy SFT

arxiv url: http://arxiv.org/abs/2602.11220v1
Date: Wed, 11 Feb 2026 11:51:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.464502
Title: Patch the Distribution Mismatch: RL Rewriting Agent for Stable Off-Policy SFT
Title（参考訳）: 配電ミスマッチのパッチ:安定オフポリシングSFT用RL書き換え剤
Authors: Jiacheng Wang, Ping Jian, Zhen Yang, Zirong Chen, Keren Liao, Zhongbin Guo,
Abstract要約: 我々は、教師付き微調整(SFT)の前に下流のトレーニングデータを書き換えるデータ中心のアプローチを提案する。多様性を保ちながら、バックボーンのQAスタイルの世代分布に適合する書き直しポリシーを学習する。本手法は、標準SFTに匹敵するダウンストリームゲインを実現し、ダウンストリームでないベンチマークを平均12.34%削減する。
参考スコア（独自算出の注目度）: 13.387535599778305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have made rapid progress, yet adapting them to downstream scenarios still commonly relies on supervised fine-tuning (SFT). When downstream data exhibit a substantial distribution shift from the model's prior training distribution, SFT can induce catastrophic forgetting. To narrow this gap, data rewriting has been proposed as a data-centric approach that rewrites downstream training data prior to SFT. However, existing methods typically sample rewrites from a prompt-induced conditional distribution, so the resulting targets are not necessarily aligned with the model's natural QA-style generation distribution. Moreover, reliance on fixed templates can lead to diversity collapse. To address these issues, we cast data rewriting as a policy learning problem and learn a rewriting policy that better matches the backbone's QA-style generation distribution while preserving diversity. Since distributional alignment, diversity and task consistency are automatically evaluable but difficult to optimize end-to-end with differentiable objectives, we leverage reinforcement learning to optimize the rewrite distribution under reward feedback and propose an RL-based data-rewriting agent. The agent jointly optimizes QA-style distributional alignment and diversity under a hard task-consistency gate, thereby constructing a higher-quality rewritten dataset for downstream SFT. Extensive experiments show that our method achieves downstream gains comparable to standard SFT while reducing forgetting on non-downstream benchmarks by 12.34% on average. Our code is available at https://anonymous.4open.science/r/Patch-the-Prompt-Gap-4112 .
Abstract（参考訳）: 大規模言語モデル (LLMs) は急速に進歩しているが、下流のシナリオに適応するにはいまだに教師付き微調整 (SFT) に依存している。下流のデータがモデルの以前のトレーニング分布からかなりの分布シフトを示す場合、SFTは破滅的な忘れを誘発することができる。このギャップを狭めるために、SFT以前の下流トレーニングデータを書き換えるデータ中心のアプローチとして、データ書き換えが提案されている。しかし、既存の手法は、通常、プロンプト誘起された条件分布からサンプルリライトを行うため、結果のターゲットは必ずしもモデルの自然なQAスタイルの生成分布と一致しない。さらに、固定テンプレートへの依存は多様性の崩壊につながる可能性がある。これらの課題に対処するため,我々は,データ書き換えを政策学習問題とみなし,多様性を保ちながらバックボーンのQA型生成分布に適合する書き直しポリシーを学習した。分散アライメント,多様性,タスクの整合性は自動評価可能であるが,目的の異なるエンドツーエンドの最適化は困難であるため,報奨フィードバック下での書き換え分布の最適化に強化学習を活用し,RLに基づくデータ書き換えエージェントを提案する。エージェントは、ハードタスク一貫性ゲートの下でQAスタイルの分散アライメントと多様性を共同で最適化し、下流SFTのための高品質な書き換えデータセットを構築する。大規模な実験により,本手法は標準SFTに匹敵するダウンストリームゲインを達成するとともに,ダウンストリーム以外のベンチマークを平均12.34%削減することを示した。私たちのコードはhttps://anonymous.4open.science/r/Patch-the-Prompt-Gap-4112で利用可能です。

関連論文リスト

SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。 textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文参考訳（メタデータ） (2026-02-08T07:26:52Z)
Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。 SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文参考訳（メタデータ） (2025-10-19T15:32:01Z)
Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-18T17:02:30Z)
Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment [16.352863226512984]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、分散シフト下でのゼロショットロバスト性を高める。ほとんどのメソッドは、スケーラビリティを制限し、リアルタイムデプロイメントを妨げるバックプロパゲーションや反復最適化に依存しています。本稿では,Advanced Distribution-AwareとBack propagation-free Test-time Adapting法であるADAPTを提案する。
論文参考訳（メタデータ） (2025-08-21T13:42:49Z)
Asymmetric Co-Training for Source-Free Few-Shot Domain Adaptation [5.611768906855499]
SFFSDAシナリオに特化して設計された非対称コトレーニング(ACT)手法を提案する。ターゲットモデルをトレーニングするために、2段階の最適化プロセスを使用します。本研究は,少数のラベル付き対象データのみを用いた事前学習モデルの適用により,実用的で信頼性の高い解が得られることを示唆する。
論文参考訳（メタデータ） (2025-02-20T02:58:45Z)
Step-wise Distribution Alignment Guided Style Prompt Tuning for Source-free Cross-domain Few-shot Learning [53.77707279483278]
クロスドメインの少数ショット学習手法は、アクセス不能なソースデータとトレーニング戦略により、大規模事前学習モデルの課題に直面している。本稿では,ステップワイド配向ガイド型プロンプトチューニング(StepSPT)を紹介する。 StepSPTは予測分布最適化を通じて暗黙的にドメインギャップを狭める。
論文参考訳（メタデータ） (2024-11-15T09:34:07Z)
Distribution Alignment for Fully Test-Time Adaptation with Dynamic Online Data Streams [19.921480334048756]
TTA(Test-Time Adaptation)は、テストデータストリームの適応と推論を可能にする。本稿では,TTAにおける新しい配電アライメント損失を提案する。我々は、非i.d.シナリオにおける既存の手法を超越し、理想的なi.d.仮定の下で競争性能を維持する。
論文参考訳（メタデータ） (2024-07-16T19:33:23Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文参考訳（メタデータ） (2021-10-06T08:45:03Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。