論文の概要: Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?
- arxiv url: http://arxiv.org/abs/2506.19733v1
- Date: Tue, 24 Jun 2025 15:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.704771
- Title: Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?
- Title(参考訳): 障害を打破する - 強化後のトレーニングは、見えないドメインに移行するか?
- Authors: Chuxuan Hu, Yuxuan Zhu, Antony Kellermann, Caleb Biddulph, Suppakit Waiwitlikhit, Jason Benn, Daniel Kang,
- Abstract要約: 強化ポストトレーニング(RPT)は、最近、大規模言語モデル(LLM)の推論能力を改善することを約束している。
これらの改良がいかにして新しいドメインに一般化されるかは、以前の研究で微調整に使われた同じドメインのデータ上でRTTモデルを評価するため、まだ不明である。
- 参考スコア(独自算出の注目度): 3.494084149854375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement post training (RPT) has recently shown promise in improving the reasoning abilities of large language models (LLMs). However, it remains unclear how well these improvements generalize to new domains, as prior work evaluates RPT models on data from the same domains used for fine-tuning. To understand the generalizability of RPT, we conduct two studies. (1) Observational: We compare a wide range of open-weight RPT models against their corresponding base models across multiple domains, including both seen and unseen domains in their fine-tuning data. (2) Interventional: we fine-tune LLMs with RPT on single domains and evaluate their performance across multiple domains. Both studies converge on the same conclusion that, although RPT brings substantial gains on tasks similar to the fine-tuning data, the gains generalize inconsistently and can vanish on domains with different reasoning patterns.
- Abstract(参考訳): 強化ポストトレーニング(RPT)は、最近、大規模言語モデル(LLM)の推論能力を改善することを約束している。
しかし、これらの改善が新しいドメインにどのように一般化されるかは未定であり、以前の研究では、微調整に使用される同じドメインのデータに対してRTTモデルを評価していた。
RPTの一般化可能性を理解するために,2つの研究を行った。
1) 観測: 各領域にまたがる多種多様なオープンウェイトRTTモデルと比較した。
2) インターベンショナル: 単一ドメイン上でRTPを微調整し, その性能を複数のドメインで評価する。
どちらの研究も、RTTは微調整データと同様のタスクにかなりの利得をもたらすが、この利得は矛盾なく一般化し、異なる推論パターンを持つドメインで消えるという結論に収束する。
関連論文リスト
- VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data [21.460891616139534]
本稿では,新しいデータ生成法とアノテーション法を用いて生成した合成推論データに基づいて学習したマルチドメインPRMであるVersaPRMを紹介する。
VersaPRMはさまざまなドメインで一貫したパフォーマンス向上を実現している。
VersaPRMのすべてのデータ、コード、モデルをオープンソース化することで、コミュニティにさらに貢献します。
論文 参考訳(メタデータ) (2025-02-10T18:03:36Z) - Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - Disentangled Modeling of Domain and Relevance for Adaptable Dense
Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。
REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。
DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-08-11T11:18:50Z) - Mixup Regularized Adversarial Networks for Multi-Domain Text
Classification [16.229317527580072]
マルチドメインテキスト分類(MDTC)モデルの性能は,共有プライベートパラダイムと敵対的トレーニングによって大幅に向上した。
しかし、既存の方法には2つの問題がある。
この2つの問題に対処するために、MRAN(Mixup regularized adversarial network)を提案する。
論文 参考訳(メタデータ) (2021-01-31T15:24:05Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。