論文の概要: Aligning LLMs with Domain Invariant Reward Models
- arxiv url: http://arxiv.org/abs/2501.00911v1
- Date: Wed, 01 Jan 2025 17:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:02.840837
- Title: Aligning LLMs with Domain Invariant Reward Models
- Title(参考訳): ドメイン不変リワードモデルによるLCMの配向
- Authors: David Wu, Sanjiban Choudhury,
- Abstract要約: 本稿では、二重損失を最適化することにより、ドメイン不変報酬モデルを訓練するフレームワークを提案する。
提案手法は,4つの異なる設定に対して評価・解析を行う一般的な手法である。
- 参考スコア(独自算出の注目度): 11.335897426867533
- License:
- Abstract: Aligning large language models (LLMs) to human preferences is challenging in domains where preference data is unavailable. We address the problem of learning reward models for such target domains by leveraging feedback collected from simpler source domains, where human preferences are easier to obtain. Our key insight is that, while domains may differ significantly, human preferences convey \emph{domain-agnostic} concepts that can be effectively captured by a reward model. We propose \method, a framework that trains domain-invariant reward models by optimizing a dual loss: a domain loss that minimizes the divergence between source and target distribution, and a source loss that optimizes preferences on the source domain. We show \method is a general approach that we evaluate and analyze across 4 distinct settings: (1) Cross-lingual transfer (accuracy: $0.621 \rightarrow 0.661$), (2) Clean-to-noisy (accuracy: $0.671 \rightarrow 0.703$), (3) Few-shot-to-full transfer (accuracy: $0.845 \rightarrow 0.920$), and (4) Simple-to-complex tasks transfer (correlation: $0.508 \rightarrow 0.556$). Our code, models and data are available at \url{https://github.com/portal-cornell/dial}.
- Abstract(参考訳): 大きな言語モデル(LLM)を人間の好みに合わせることは、好みデータが利用できない領域では難しい。
我々は、よりシンプルなソースドメインから収集したフィードバックを利用して、人間の嗜好が容易に得られるようにすることで、そのような対象ドメインに対する報酬モデル学習の課題に対処する。
我々の重要な洞察は、ドメインは著しく異なるかもしれないが、人間の嗜好は報酬モデルによって効果的に捉えられる「emph{ domain-agnostic}」概念を伝達するということである。
本稿では,2つの損失を最適化してドメイン不変報酬モデルをトレーニングするフレームワークである‘method’を提案する。ソースとターゲットの分布のばらつきを最小限にするドメイン損失と,ソースドメインの好みを最適化するソース損失である。
1)言語間変換(精度:$0.621 \rightarrow 0.661$)、(2)クリーン・トゥ・ノイズ(精度:$0.671 \rightarrow 0.703$)、(3)Few-shot-to-full転送(精度:$0.845 \rightarrow 0.920$)、(4)Simple-to-complexタスク転送(補正:$0.508 \rightarrow 0.556$)である。
私たちのコード、モデル、データは \url{https://github.com/portal-cornell/dial} で利用可能です。
関連論文リスト
- AdaTriplet-RA: Domain Matching via Adaptive Triplet and Reinforced
Attention for Unsupervised Domain Adaptation [15.905869933337101]
教師なしドメイン適応(Unsupervised Domain Adaption、UDA)は、ソースドメインのデータとアノテーションが利用できるが、トレーニング中にラベル付けされていないターゲットデータにのみアクセスできるトランスファー学習タスクである。
本稿では、ドメイン間サンプルマッチング方式を用いて、教師なしドメイン適応タスクを改善することを提案する。
ドメイン間サンプルに合わせるために,広く利用され,堅牢なTriplet損失を適用した。
トレーニング中に発生する不正確な擬似ラベルの破滅的効果を低減するため,信頼度の高い擬似ラベルを自動的に選択し,段階的に改良する新しい不確実性測定法を提案する。
論文 参考訳(メタデータ) (2022-11-16T13:04:24Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - One Ring to Bring Them All: Towards Open-Set Recognition under Domain
Shift [39.31881646860522]
我々は、$n$のソースクラスと未知のクラスを予測するために、$n$+1のウェイを学習するための新しいトレーニングスキームを提案する。
対象適応には、単純に重み付きエントロピー最小化を採用し、未ラベル対象領域にソース事前学習モデルを適用する。
提案手法は,複数のベンチマークに適応する際のソースデータを要求する,現在のUNDAアプローチを超越する。
論文 参考訳(メタデータ) (2022-06-07T21:39:54Z) - Understanding Gradual Domain Adaptation: Improved Analysis, Optimal Path
and Beyond [20.518134448156744]
グラデーショナルドメイン適応(GDA)は、ソースとターゲットをブリッジする未ラベルの中間ドメインのパスを$(T-1)と仮定する。
我々は、$widetildeOleft(varepsilon_0+Oleft(sqrtlog(T)/nright)$, $Delta$が連続ドメイン間の平均分布距離であることを示す。
論文 参考訳(メタデータ) (2022-04-18T07:39:23Z) - Domain-shift adaptation via linear transformations [11.541238742226199]
ソースドメイン(A)のデータから学習した予測子$f_Aは、分布が異なる場合、ターゲットドメイン(B)上で正確でない可能性がある。
ソースとターゲットドメインを低次元の共通空間に投影する手法を提案する。
シミュレーションデータと二進数分類タスクにおけるアプローチの有効性を示し、データのドメインシフトを補正する際の精度を最大48%向上させる。
論文 参考訳(メタデータ) (2022-01-14T02:49:03Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - On Universal Black-Box Domain Adaptation [53.7611757926922]
実践的な展開という観点から,ドメイン適応の最小限の制約条件について検討する。
ソースモデルのインターフェースのみがターゲットドメインで利用可能であり、2つのドメイン間のラベル空間関係が異なることや未知であることが許されている。
対象試料の局所近傍における予測の整合性によって正規化された自己訓練フレームワークに統一することを提案する。
論文 参考訳(メタデータ) (2021-04-10T02:21:09Z) - Dynamic Transfer for Multi-Source Domain Adaptation [82.54405157719641]
モデルパラメータがサンプルに適合する領域の競合に対処するために動的転送を提案する。
ソースドメインの障壁を壊し、マルチソースドメインを単一ソースドメインに変換する。
実験の結果, ドメインラベルを使わずに, 動的移動は最先端の手法よりも3%以上優れていた。
論文 参考訳(メタデータ) (2021-03-19T01:22:12Z) - An Improved Transfer Model: Randomized Transferable Machine [32.50263074872975]
そこで本研究では,Randomized Transferable Machine (RTM) と呼ばれる新しいトランスファーモデルを提案する。
具体的には,既存の特徴量に基づく転送手法から得られた新たなソースとターゲットデータについて検討する。
原則として、汚職が多くなるほど、新しいターゲットデータの確率が高くなると、構築されたソースデータ人口でカバーできる。
論文 参考訳(メタデータ) (2020-11-27T09:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。