論文の概要: Enhancing Preference-based Linear Bandits via Human Response Time
- arxiv url: http://arxiv.org/abs/2409.05798v4
- Date: Thu, 02 Jan 2025 12:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:35:28.739842
- Title: Enhancing Preference-based Linear Bandits via Human Response Time
- Title(参考訳): 人の反応時間による嗜好に基づく線形帯域の強化
- Authors: Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah,
- Abstract要約: 対話的嗜好学習システムは、クエリを選択肢のペアとして提示し、バイナリ選択を収集することによって、人間の嗜好を推測する。
本研究では,選択時間と応答時間を組み合わせて人間のユーティリティ関数を推定する手法を提案する。
固定予算ベストアーム識別のための選好ベース線形バンドレットにこの推定器を組み込む。
- 参考スコア(独自算出の注目度): 25.92686846689662
- License:
- Abstract: Interactive preference learning systems infer human preferences by presenting queries as pairs of options and collecting binary choices. Although binary choices are simple and widely used, they provide limited information about preference strength. To address this, we leverage human response times, which are inversely related to preference strength, as an additional signal. We propose a computationally efficient method that combines choices and response times to estimate human utility functions, grounded in the EZ diffusion model from psychology. Theoretical and empirical analyses show that for queries with strong preferences, response times complement choices by providing extra information about preference strength, leading to significantly improved utility estimation. We incorporate this estimator into preference-based linear bandits for fixed-budget best-arm identification. Simulations on three real-world datasets demonstrate that using response times significantly accelerates preference learning compared to choice-only approaches. Additional materials, such as code, slides, and talk video, are available at https://shenlirobot.github.io/pages/NeurIPS24.html
- Abstract(参考訳): 対話的嗜好学習システムは、クエリを選択肢のペアとして提示し、バイナリ選択を収集することによって、人間の嗜好を推測する。
二項選択は単純で広く使われているが、好みの強さに関する限られた情報を提供する。
これに対処するために、好みの強さと逆相関する人間の反応時間を付加信号として活用する。
本研究では,心理学からのEZ拡散モデルに基づいて,選択時間と応答時間を組み合わせて人間の効用関数を推定する手法を提案する。
理論的および実証的な分析により、強い好みを持つクエリの場合、応答時間は好みの強さに関する余分な情報を提供することによって選択を補完し、ユーティリティー推定を大幅に改善することが示された。
固定予算ベストアーム識別のための選好ベース線形バンドレットにこの推定器を組み込む。
実世界の3つのデータセットのシミュレーションにより、応答時間の使用は選択のみのアプローチと比較して、好みの学習を著しく加速することが示された。
コード、スライド、トークビデオなどの追加資料はhttps://shenlirobot.github.io/pages/NeurIPS24.htmlで入手できる。
関連論文リスト
- Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
本稿では,二項比較から多種多様な人間の嗜好を抽出する新しいアプローチであるデコンプリート・リワード・モデル(DRM)を紹介する。
我々の重要な洞察は、人間の好みをベクトルとして表現し、主成分分析(PCA)を用いて分析することである。
DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文 参考訳(メタデータ) (2025-02-18T18:55:26Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。
この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。
我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:27:52Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。
本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T16:36:16Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。