Fugu-MT 論文翻訳(概要): Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

論文の概要: Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

arxiv url: http://arxiv.org/abs/2405.14769v1
Date: Thu, 23 May 2024 16:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 13:46:53.712527
Title: Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input
Title（参考訳）: Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input
Authors: Andi Peng, Yuying Sun, Tianmin Shu, David Abel,
Abstract要約: より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
参考スコア（独自算出の注目度）: 17.131441665935128
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans use social context to specify preferences over behaviors, i.e. their reward functions. Yet, algorithms for inferring reward models from preference data do not take this social learning view into account. Inspired by pragmatic human communication, we study how to extract fine-grained data regarding why an example is preferred that is useful for learning more accurate reward models. We propose to enrich binary preference queries to ask both (1) which features of a given example are preferable in addition to (2) comparisons between examples themselves. We derive an approach for learning from these feature-level preferences, both for cases where users specify which features are reward-relevant, and when users do not. We evaluate our approach on linear bandit settings in both vision- and language-based domains. Results support the efficiency of our approach in quickly converging to accurate rewards with fewer comparisons vs. example-only labels. Finally, we validate the real-world applicability with a behavioral experiment on a mushroom foraging task. Our findings suggest that incorporating pragmatic feature preferences is a promising approach for more efficient user-aligned reward learning.
Abstract（参考訳）: 人間は社会的文脈を用いて行動よりも好み、すなわち報酬関数を指定する。しかし、好みデータから報酬モデルを推測するアルゴリズムは、この社会的学習の視点を考慮に入れていない。現実的な人間コミュニケーションに触発されて、より正確な報酬モデルを学ぶのに有用な例が好まれる理由について、きめ細かいデータを抽出する方法を研究する。本稿では,(1)例間の比較に加えて,(1)例の特徴が望ましいか,(2)例間の比較が望ましいかを問うために,二分選好クエリの強化を提案する。我々は,どの機能に報酬関係があるか,ユーザがそうでないかをユーザが指定した場合に,これらの機能レベルの嗜好から学習するためのアプローチを導出する。視覚領域と言語領域の両方における線形帯域設定に対するアプローチを評価する。その結果,より少ない比較で精度の高い報奨に迅速に収束するアプローチの効率が,例のみのラベルと比較できることがわかった。最後に,キノコ採餌作業における行動実験により実世界の応用性を検証した。本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。

関連論文リスト

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文参考訳（メタデータ） (2024-10-06T14:48:28Z)
Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文参考訳（メタデータ） (2024-07-19T17:27:52Z)
A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文参考訳（メタデータ） (2024-03-09T20:32:17Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-06-28T03:28:15Z)
Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文参考訳（メタデータ） (2022-06-05T17:58:02Z)
Modeling Dynamic User Preference via Dictionary Learning for Sequential Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文参考訳（メタデータ） (2022-04-02T03:23:46Z)
Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文参考訳（メタデータ） (2021-11-08T05:46:33Z)
Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文参考訳（メタデータ） (2021-03-23T16:19:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。