Fugu-MT 論文翻訳(概要): Tell my why: Training preferences-based RL with human preferences and step-level explanations

論文の概要: Tell my why: Training preferences-based RL with human preferences and step-level explanations

arxiv url: http://arxiv.org/abs/2405.14244v1
Date: Thu, 23 May 2024 07:23:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 18:34:03.154751
Title: Tell my why: Training preferences-based RL with human preferences and step-level explanations
Title（参考訳）: 理由を教えてください:人間の嗜好とステップレベルの説明による嗜好に基づくRLのトレーニング
Authors: Jakob Karalus,
Abstract要約: そこで我々は,人間にフィードバックを与えるためのより表現力豊かなインタフェースを提供する,嗜好に基づく新しい学習手法を提案する。これらの説明により、人は軌道のどの部分が好みに最も関係しているかを説明できる。以上の結果から,拡張されたフィードバックによって学習速度が向上することが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human-in-the-loop reinforcement learning (HRL) allows the training of agents through various interfaces, even for non-expert humans. Recently, preference-based methods (PBRL), where the human has to give his preference over two trajectories, increased in popularity since they allow training in domains where more direct feedback is hard to formulate. However, the current PBRL methods have limitations and do not provide humans with an expressive interface for giving feedback. With this work, we propose a new preference-based learning method that provides humans with a more expressive interface to provide their preference over trajectories and a factual explanation (or annotation of why they have this preference). These explanations allow the human to explain what parts of the trajectory are most relevant for the preference. We allow the expression of the explanations over individual trajectory steps. We evaluate our method in various simulations using a simulated human oracle (with realistic restrictions), and our results show that our extended feedback can improve the speed of learning. Code & data: github.com/under-rewiev
Abstract（参考訳）: HRL(Human-in-the-loop reinforcement learning)は、専門家でない人でも様々なインタフェースを通してエージェントを訓練することができる。近年,より直接的なフィードバックが難しい領域でのトレーニングを許すため,ヒトが2つの軌道を優先しなければならないPBRLが人気を博している。しかしながら、現在のPBRLメソッドには制限があり、フィードバックを与えるための表現力のあるインターフェースは提供されていない。そこで本研究では,より表現力に富んだインタフェースを人間に提供し,軌道上での嗜好と事実的説明(あるいはなぜこの嗜好を持つのかの注釈)を提供する,新たな嗜好に基づく学習手法を提案する。これらの説明により、人は軌道のどの部分が好みに最も関係しているかを説明できる。我々は個々の軌道上の説明の表現を許容する。シミュレーションにおいて,本手法をシミュレーションで評価した結果,学習速度の向上が期待できることがわかった。コードとデータ:github.com/under-rewiev

関連論文リスト

PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning [2.0373030742807545]
我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
論文参考訳（メタデータ） (2025-06-16T17:51:33Z)
CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries [13.06534916144093]
ResolvIng Ambiguous Feedback (CLARIFY) のためのコントラストLeArningを提案する。 CLARIFYは、選好情報を含む軌道埋め込み空間を学習し、明確に区別されたセグメントが分離されることを保証する。我々のアプローチは、より優れたクエリを選択するだけでなく、意味のある軌道埋め込みも学習する。
論文参考訳（メタデータ） (2025-05-31T04:37:07Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Humans are not Boltzmann Distributions: Challenges and Opportunities for Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文参考訳（メタデータ） (2022-06-27T13:58:51Z)
Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文参考訳（メタデータ） (2022-06-05T17:58:02Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文参考訳（メタデータ） (2020-07-25T10:37:15Z)
Widening the Pipeline in Human-Guided Reinforcement Learning with Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文参考訳（メタデータ） (2020-06-26T05:40:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。