Fugu-MT 論文翻訳(概要): Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

論文の概要: Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

arxiv url: http://arxiv.org/abs/2506.19733v1
Date: Tue, 24 Jun 2025 15:53:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.704771
Title: Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?
Title（参考訳）: 障害を打破する - 強化後のトレーニングは、見えないドメインに移行するか?
Authors: Chuxuan Hu, Yuxuan Zhu, Antony Kellermann, Caleb Biddulph, Suppakit Waiwitlikhit, Jason Benn, Daniel Kang,
Abstract要約: 強化ポストトレーニング(RPT)は、最近、大規模言語モデル(LLM)の推論能力を改善することを約束している。これらの改良がいかにして新しいドメインに一般化されるかは、以前の研究で微調整に使われた同じドメインのデータ上でRTTモデルを評価するため、まだ不明である。
参考スコア（独自算出の注目度）: 3.494084149854375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement post training (RPT) has recently shown promise in improving the reasoning abilities of large language models (LLMs). However, it remains unclear how well these improvements generalize to new domains, as prior work evaluates RPT models on data from the same domains used for fine-tuning. To understand the generalizability of RPT, we conduct two studies. (1) Observational: We compare a wide range of open-weight RPT models against their corresponding base models across multiple domains, including both seen and unseen domains in their fine-tuning data. (2) Interventional: we fine-tune LLMs with RPT on single domains and evaluate their performance across multiple domains. Both studies converge on the same conclusion that, although RPT brings substantial gains on tasks similar to the fine-tuning data, the gains generalize inconsistently and can vanish on domains with different reasoning patterns.
Abstract（参考訳）: 強化ポストトレーニング(RPT)は、最近、大規模言語モデル(LLM)の推論能力を改善することを約束している。しかし、これらの改善が新しいドメインにどのように一般化されるかは未定であり、以前の研究では、微調整に使用される同じドメインのデータに対してRTTモデルを評価していた。 RPTの一般化可能性を理解するために,2つの研究を行った。 1) 観測: 各領域にまたがる多種多様なオープンウェイトRTTモデルと比較した。 2) インターベンショナル: 単一ドメイン上でRTPを微調整し, その性能を複数のドメインで評価する。どちらの研究も、RTTは微調整データと同様のタスクにかなりの利得をもたらすが、この利得は矛盾なく一般化し、異なる推論パターンを持つドメインで消えるという結論に収束する。

関連論文リスト

A Soft-partitioned Semi-supervised Collaborative Transfer Learning Approach for Multi-Domain Recommendation [33.21794937808597]
マルチドメインレコメンデーションのためのSSCTL(Soft-partitioned Semi-supervised Collaborative Transfer Learning)を提案する。 SSCTLは、圧倒的な問題に対処するために動的パラメータを生成し、非支配ドメインからのサンプルに焦点を移す。オンラインテストは様々な領域で大幅に改善され、GMVは0.54%から2.90%に、CTRは0.22%から1.69%に改善された。
論文参考訳（メタデータ） (2025-11-03T09:58:32Z)
ConstStyle: Robust Domain Generalization with Unified Style Transformation [16.853951836297203]
ドメイン・ジェネリゼーション(DG)は、ドメイン不変の機能に焦点をあてたり、より多様なデータを増やすことで、この問題に対処することを目的としている。 ConstStyleは、統一ドメインを利用して、ドメイン不変の特徴を捉え、理論解析でドメインギャップを埋める新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-09-07T08:40:19Z)
VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data [21.460891616139534]
本稿では,新しいデータ生成法とアノテーション法を用いて生成した合成推論データに基づいて学習したマルチドメインPRMであるVersaPRMを紹介する。 VersaPRMはさまざまなドメインで一貫したパフォーマンス向上を実現している。 VersaPRMのすべてのデータ、コード、モデルをオープンソース化することで、コミュニティにさらに貢献します。
論文参考訳（メタデータ） (2025-02-10T18:03:36Z)
Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文参考訳（メタデータ） (2025-01-26T15:12:06Z)
DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。 DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文参考訳（メタデータ） (2023-10-23T22:51:58Z)
Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文参考訳（メタデータ） (2023-02-06T08:11:16Z)
Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文参考訳（メタデータ） (2022-08-18T06:42:49Z)
Disentangled Modeling of Domain and Relevance for Adaptable Dense Retrieval [54.349418995689284]
本稿では,Dense Retrieval (DDR) という新しいフレームワークを提案する。 REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。 DDRは強力なDRベースラインに比べて格付け性能が大幅に向上し、ほとんどのシナリオにおいて従来の検索手法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-08-11T11:18:50Z)
TAL: Two-stream Adaptive Learning for Generalizable Person Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文参考訳（メタデータ） (2021-11-29T01:27:42Z)
Mixup Regularized Adversarial Networks for Multi-Domain Text Classification [16.229317527580072]
マルチドメインテキスト分類(MDTC)モデルの性能は,共有プライベートパラダイムと敵対的トレーニングによって大幅に向上した。しかし、既存の方法には2つの問題がある。この2つの問題に対処するために、MRAN(Mixup regularized adversarial network)を提案する。
論文参考訳（メタデータ） (2021-01-31T15:24:05Z)
Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文参考訳（メタデータ） (2020-10-07T11:18:49Z)
Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文参考訳（メタデータ） (2020-10-06T04:38:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。