論文の概要: Enhancing Preference-based Linear Bandits via Human Response Time
- arxiv url: http://arxiv.org/abs/2409.05798v1
- Date: Mon, 9 Sep 2024 17:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:56:09.369511
- Title: Enhancing Preference-based Linear Bandits via Human Response Time
- Title(参考訳): 人の反応時間による嗜好に基づく線形帯域の強化
- Authors: Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah,
- Abstract要約: 我々は、相補的な情報として、人間の反応時間を利用して、逆に好みの強さと相関する。
本稿では,選択時間と応答時間の両方を用いてユーティリティ推定問題を再構成する計算効率の良いユーティリティ推定器を提案する。
固定予算のベストアーム識別問題において,この利点を実世界の3つのデータセットに基づくシミュレーションで示す。
- 参考スコア(独自算出の注目度): 25.92686846689662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary human choice feedback is widely used in interactive preference learning for its simplicity, but it provides limited information about preference strength. To overcome this limitation, we leverage human response times, which inversely correlate with preference strength, as complementary information. Our work integrates the EZ-diffusion model, which jointly models human choices and response times, into preference-based linear bandits. We introduce a computationally efficient utility estimator that reformulates the utility estimation problem using both choices and response times as a linear regression problem. Theoretical and empirical comparisons with traditional choice-only estimators reveal that for queries with strong preferences ("easy" queries), choices alone provide limited information, while response times offer valuable complementary information about preference strength. As a result, incorporating response times makes easy queries more useful. We demonstrate this advantage in the fixed-budget best-arm identification problem, with simulations based on three real-world datasets, consistently showing accelerated learning when response times are incorporated.
- Abstract(参考訳): 二元的人間の選択フィードバックは、その単純さのためにインタラクティブな選好学習に広く使われているが、選好強度に関する限られた情報を提供する。
この制限を克服するために、人間の反応時間は、相補的な情報として、逆に好みの強さと相関する。
我々の研究は、人間の選択と応答時間を共同でモデル化するEZ拡散モデルと、嗜好に基づく線形包帯を統合する。
本稿では、線形回帰問題として、選択時間と応答時間の両方を用いてユーティリティ推定問題を再構成する計算効率の良いユーティリティ推定器を提案する。
従来の選択のみの推定器との理論的および実証的な比較では、強い好み("easy" クエリ)を持つクエリの場合、選択は限定的な情報を提供するのに対し、応答時間は好みの強さに関する貴重な補完的な情報を提供する。
その結果、レスポンスタイムを組み込むことで、簡単なクエリがより便利になる。
この利点は,3つの実世界のデータセットに基づいてシミュレーションを行い,応答時間が組み込まれた場合の学習の高速化を連続的に示す固定予算ベストアーム識別問題において実証する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Make The Most of Prior Data: A Solution for Interactive Text
Summarization with Preference Feedback [15.22874706089491]
我々は、好みのフィードバックで要約モデルを対話的に訓練する新しいフレームワークを導入する。
オフラインデータと新しい報酬モデルを適切に活用することにより、ROUGEスコアとサンプル効率に関する性能を向上させる。
論文 参考訳(メタデータ) (2022-04-12T03:56:59Z) - Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems [6.009759445555003]
この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
論文 参考訳(メタデータ) (2022-02-07T13:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。