論文の概要: Argumentative Reward Learning: Reasoning About Human Preferences
- arxiv url: http://arxiv.org/abs/2209.14010v1
- Date: Wed, 28 Sep 2022 11:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:38:41.960813
- Title: Argumentative Reward Learning: Reasoning About Human Preferences
- Title(参考訳): 議論的報酬学習:人間の選好に関する推論
- Authors: Francis Rhys Ward, Francesco Belardinelli, Francesca Toni
- Abstract要約: そこで我々は,嗜好に基づく議論と,人間のフィードバックから学習を補強するための既存のアプローチを組み合わせた,新たなニューロシンボリック・フレームワークである議論的報酬学習を定義した。
提案手法は,人間の嗜好を一般化し,ユーザの負担を軽減し,報酬モデルの堅牢性を高めることにより,先行作業を改善する。
- 参考スコア(独自算出の注目度): 15.193365548247982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We define a novel neuro-symbolic framework, argumentative reward learning,
which combines preference-based argumentation with existing approaches to
reinforcement learning from human feedback. Our method improves prior work by
generalising human preferences, reducing the burden on the user and increasing
the robustness of the reward model. We demonstrate this with a number of
experiments.
- Abstract(参考訳): 我々は,人間からのフィードバックから学習を強化するための既存のアプローチと選好に基づく議論を結合した,新しいニューロシンボリックフレームワークである議論的報酬学習を定義する。
本手法は,ユーザの好みを一般化し,ユーザの負担を軽減し,報酬モデルのロバスト性を高めることにより,先行作業を改善する。
私たちはこれをいくつかの実験で示します。
関連論文リスト
- Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - The Past, Present and Better Future of Feedback Learning in Large
Language Models for Subjective Human Preferences and Values [16.62409302626101]
我々は、ACLとarXivリポジトリを中心に95の論文を描いて、人間のフィードバックから学習するための既存のアプローチを調査した。
私たちは、現在の技術とプラクティスの概要と、フィードバックを使う動機を説明します。
我々は,5つの未解決概念と実践的課題を提起することによって,大規模言語モデルにおけるフィードバック学習のよりよい未来を奨励する。
論文 参考訳(メタデータ) (2023-10-11T16:18:13Z) - Rating-based Reinforcement Learning [1.2855244508998243]
本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。
我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,いくつかの実験を行った。
論文 参考訳(メタデータ) (2023-07-30T23:54:22Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。