論文の概要: In-Context Reward Adaptation for Robust Preference Modeling
- arxiv url: http://arxiv.org/abs/2605.30323v1
- Date: Thu, 28 May 2026 17:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.733969
- Title: In-Context Reward Adaptation for Robust Preference Modeling
- Title(参考訳): ロバスト推論モデリングのためのインコンテキスト・リワード適応
- Authors: Zhenyu Sun, Zheng Xu, Ermin Wei,
- Abstract要約: In-Context Reward Adaptation(インコンテキスト・リワード・アダプション)を提案する。
本研究では,入力信号として人間の応答時間を組み込むことで,従来の未確認領域からの好みに適応できることを示す。
- 参考スコア(独自算出の注目度): 10.945674219193135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) typically relies on static reward models to align Large Language Models with human preferences. However, human values are inherently diverse and heterogeneous, and a single reward model often lacks the robustness required to generalize to unseen preference domains. While existing multi-reward frameworks attempt to address this, they are often restricted to a fixed set of known domains and fail to adapt to unseen human distributions without costly retraining. In this work, we propose In-Context Reward Adaptation, a transformer-based framework designed to model diverse and unseen human preferences on the fly. By leveraging the in-context learning capabilities of transformers, our approach adaptively infers the underlying reward structure from a small set of preference demonstrations. We demonstrate that while a standard transformer architecture is insufficient for this task by characterizing an asymptotic bias to the ground-truth, incorporating human response time as an auxiliary input signal enables the model to successfully adapt to preferences from previously unseen domains. Our findings show that this approach provides a more robust foundation for preference modeling, allowing for the representation of heterogeneous rewards and preference distribution shift, and offering a scalable path toward more flexible human-AI alignment.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は通常、人間の好みに合わせるために静的な報酬モデルに依存している。
しかし、人間の価値観は本質的に多様性があり異種であり、単一の報酬モデルには、目に見えない選好領域に一般化するために必要な堅牢さが欠如していることが多い。
既存のマルチリワードフレームワークはこの問題に対処しようとするが、しばしば固定された既知のドメインに制限され、コストのかかる再トレーニングなしに、目に見えない人間の分布に適応できない。
In-Context Reward Adaptation(インコンテキスト・リワード・アダプション)を提案する。
変換器の文脈内学習機能を活用することにより,提案手法は,少数の好みのデモンストレーションから基礎となる報酬構造を適応的に推論する。
本研究では, 入力信号として人間の応答時間を組み込むことで, 既往のドメインからの嗜好に適応できることを実証した。
提案手法は、より堅牢な嗜好モデリング基盤を提供し、不均一な報酬の表現と嗜好分布のシフトを可能にし、より柔軟な人間-AIアライメントに向けたスケーラブルな経路を提供する。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning [28.478879569025583]
大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。
最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。
第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
論文 参考訳(メタデータ) (2025-05-30T17:44:28Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Preference Transformer: Modeling Human Preferences using Transformers
for RL [165.33887165572128]
Preference Transformerは、トランスフォーマーを使用して人間の好みをモデル化するニューラルネットワークである。
そこで,Preference Transformerは,従来のアプローチでは動作しないが,実際の人間の好みを使って様々な制御タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-02T04:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。