論文の概要: When In-Distribution Gains Fail: Evaluating Weak-to-Strong Reward Models under Preference Shift
- arxiv url: http://arxiv.org/abs/2605.25629v2
- Date: Tue, 26 May 2026 08:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.160946
- Title: When In-Distribution Gains Fail: Evaluating Weak-to-Strong Reward Models under Preference Shift
- Title(参考訳): 分布内ゲインが低下する時--優先シフト下での弱-ストロングリワードモデルの評価-
- Authors: Khoi Le, Tri Cao, Phong Nguyen, Cong-Duy Nguyen, Anh Tuan Luu, Miao Chunyan, See-Kiong Ng, Thong Nguyen,
- Abstract要約: ゼロショット分布シフト下でのW2S選好学習について検討した。
弱い選好ラベルで訓練された強い学生は、選好データセットを移動できなくとも、流通に成功していることがわかった。
本稿では、事前訓練された強モデルの表現空間からの過剰なドリフトを制約する単純で効果的な正規化器であるRepresentation Anchoring(Anchor)を提案する。
- 参考スコア(独自算出の注目度): 72.0686608132772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weak-to-strong (W2S) generalization is a promising framework for scalable oversight, yet existing evaluations often test students under matched train-test distributions. Therefore, we study W2S preference learning under zero-shot distribution shift and find that strong students trained on weak preference labels can appear successful in-distribution while failing to transfer across preference datasets. We provide evidence for a representational failure mode in which weak-supervised fine-tuning can pull the strong model toward source-domain features instead of maintaining broadly transferable preference representations. To mitigate this, we propose Representation Anchoring (Anchor), a simple yet effective regularizer that constrains excessive drift from the pretrained strong model's representation space during fine-tuning, while still allowing task-relevant adaptation. Across preference domains, datasets, and model families, Anchor consistently improves out-of-distribution transfer while maintaining competitive in-distribution performance. Together, our evaluation protocol, transfer-aware metrics, and method expose hidden brittleness in current W2S reward modeling and provide a practical path toward more robust preference transfer.
- Abstract(参考訳): Weak-to-strong(W2S)の一般化は、スケーラブルな監視のための有望なフレームワークであるが、既存の評価では、マッチしたテスト分布の下で生徒をテストすることが多い。
そこで我々は, ゼロショット分布シフト下でのW2S選好学習について検討し, 弱い選好ラベルを訓練した強い学生は, 選好データセット間での伝達に失敗しながら, 分配に成功しうることを示した。
本稿では,教師の弱い微調整が,広範囲に転送可能な選好表現を維持せずに,ソースドメイン機能に対して強力なモデルを引き出すことができる表現障害モードの証拠を提供する。
これを軽減するために, タスク関連適応性を確保しつつ, 未学習の強モデル表現空間からの過剰なドリフトを抑制する, 単純かつ効果的な正規化器であるRepresentation Anchoring(Anchor)を提案する。
プライオリティドメイン、データセット、モデルファミリー全体にわたって、Anchorは、競争力のある分散性能を維持しながら、常にアウト・オブ・ディストリビューション転送を改善している。
評価プロトコル、転送対応メトリクス、および現在のW2S報酬モデルにおける隠れ脆さを隠蔽し、より堅牢な優先転送に向けた実践的な経路を提供する。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner [46.140724013144194]
CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
論文 参考訳(メタデータ) (2026-02-04T09:00:12Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。