Fugu-MT 論文翻訳(概要): Enhancing Preference-based Linear Bandits via Human Response Time

論文の概要: Enhancing Preference-based Linear Bandits via Human Response Time

arxiv url: http://arxiv.org/abs/2409.05798v1
Date: Mon, 9 Sep 2024 17:02:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 13:56:09.369511
Title: Enhancing Preference-based Linear Bandits via Human Response Time
Title（参考訳）: 人の反応時間による嗜好に基づく線形帯域の強化
Authors: Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah,
Abstract要約: 我々は、相補的な情報として、人間の反応時間を利用して、逆に好みの強さと相関する。本稿では,選択時間と応答時間の両方を用いてユーティリティ推定問題を再構成する計算効率の良いユーティリティ推定器を提案する。固定予算のベストアーム識別問題において,この利点を実世界の3つのデータセットに基づくシミュレーションで示す。
参考スコア（独自算出の注目度）: 25.92686846689662
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Binary human choice feedback is widely used in interactive preference learning for its simplicity, but it provides limited information about preference strength. To overcome this limitation, we leverage human response times, which inversely correlate with preference strength, as complementary information. Our work integrates the EZ-diffusion model, which jointly models human choices and response times, into preference-based linear bandits. We introduce a computationally efficient utility estimator that reformulates the utility estimation problem using both choices and response times as a linear regression problem. Theoretical and empirical comparisons with traditional choice-only estimators reveal that for queries with strong preferences ("easy" queries), choices alone provide limited information, while response times offer valuable complementary information about preference strength. As a result, incorporating response times makes easy queries more useful. We demonstrate this advantage in the fixed-budget best-arm identification problem, with simulations based on three real-world datasets, consistently showing accelerated learning when response times are incorporated.
Abstract（参考訳）: 二元的人間の選択フィードバックは、その単純さのためにインタラクティブな選好学習に広く使われているが、選好強度に関する限られた情報を提供する。この制限を克服するために、人間の反応時間は、相補的な情報として、逆に好みの強さと相関する。我々の研究は、人間の選択と応答時間を共同でモデル化するEZ拡散モデルと、嗜好に基づく線形包帯を統合する。本稿では、線形回帰問題として、選択時間と応答時間の両方を用いてユーティリティ推定問題を再構成する計算効率の良いユーティリティ推定器を提案する。従来の選択のみの推定器との理論的および実証的な比較では、強い好み("easy" クエリ)を持つクエリの場合、選択は限定的な情報を提供するのに対し、応答時間は好みの強さに関する貴重な補完的な情報を提供する。その結果、レスポンスタイムを組み込むことで、簡単なクエリがより便利になる。この利点は,3つの実世界のデータセットに基づいてシミュレーションを行い,応答時間が組み込まれた場合の学習の高速化を連続的に示す固定予算ベストアーム識別問題において実証する。

関連論文リスト

Preference Learning with Response Time [18.659347526840822]
応答時間情報をバイナリ選択データとともに組み込む新しい手法を提案する。我々は、報酬モデル学習のためのオラクル収束率を達成するニーマン直交損失関数を開発する。我々の実験は、画像よりも好み学習の文脈における理論的知見を検証した。
論文参考訳（メタデータ） (2025-05-28T19:55:54Z)
Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
本稿では,二項比較から多種多様な人間の嗜好を抽出する新しいアプローチであるデコンプリート・リワード・モデル(DRM)を紹介する。我々の重要な洞察は、人間の好みをベクトルとして表現し、主成分分析(PCA)を用いて分析することである。 DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文参考訳（メタデータ） (2025-02-18T18:55:26Z)
Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2024-12-05T02:35:46Z)
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文参考訳（メタデータ） (2024-10-06T14:48:28Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文参考訳（メタデータ） (2024-07-19T17:27:52Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。 OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文参考訳（メタデータ） (2024-05-23T02:13:34Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。