論文の概要: Mapping out the Space of Human Feedback for Reinforcement Learning: A Conceptual Framework
- arxiv url: http://arxiv.org/abs/2411.11761v1
- Date: Mon, 18 Nov 2024 17:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:23.408059
- Title: Mapping out the Space of Human Feedback for Reinforcement Learning: A Conceptual Framework
- Title(参考訳): 強化学習のためのヒューマンフィードバックの空間をマッピングする:概念的枠組み
- Authors: Yannick Metz, David Lindner, Raphaël Baur, Mennatallah El-Assady,
- Abstract要約: 我々は、対話型学習シナリオにおける人間のフィードバックの共通理解を開発することにより、機械学習と人間とコンピュータの相互作用のギャップを埋める。
そこで我々は,9つの重要な次元に基づいて,人的フィードバックから報酬に基づく学習を行うためのフィードバックタイプ分類を導入した。
フィードバックを表現できる人間の能力と、フィードバックから学習するエージェントの能力に影響を及ぼす、人間のフィードバックの質の指標を7つ同定する。
- 参考スコア(独自算出の注目度): 13.949126295663328
- License:
- Abstract: Reinforcement Learning from Human feedback (RLHF) has become a powerful tool to fine-tune or train agentic machine learning models. Similar to how humans interact in social contexts, we can use many types of feedback to communicate our preferences, intentions, and knowledge to an RL agent. However, applications of human feedback in RL are often limited in scope and disregard human factors. In this work, we bridge the gap between machine learning and human-computer interaction efforts by developing a shared understanding of human feedback in interactive learning scenarios. We first introduce a taxonomy of feedback types for reward-based learning from human feedback based on nine key dimensions. Our taxonomy allows for unifying human-centered, interface-centered, and model-centered aspects. In addition, we identify seven quality metrics of human feedback influencing both the human ability to express feedback and the agent's ability to learn from the feedback. Based on the feedback taxonomy and quality criteria, we derive requirements and design choices for systems learning from human feedback. We relate these requirements and design choices to existing work in interactive machine learning. In the process, we identify gaps in existing work and future research opportunities. We call for interdisciplinary collaboration to harness the full potential of reinforcement learning with data-driven co-adaptive modeling and varied interaction mechanics.
- Abstract(参考訳): Reinforcement Learning from Human feedback (RLHF)は、エージェント機械学習モデルを微調整または訓練するための強力なツールとなっている。
人間が社会的文脈でどのように相互作用するかと同じように、私たちはRLエージェントに好み、意図、知識を伝えるために、さまざまな種類のフィードバックを使用することができます。
しかしながら、RLにおける人間のフィードバックの応用はスコープに限られており、人間の要因を無視していることが多い。
本研究では,対話型学習シナリオにおける人間のフィードバックの共通理解を開発することにより,機械学習と人間-コンピュータインタラクションのギャップを埋める。
まず,9つの重要な次元に基づいて人的フィードバックから報酬に基づく学習を行うためのフィードバックタイプ分類を導入する。
我々の分類学は、人間中心、インターフェイス中心、モデル中心の側面を統一することを可能にする。
さらに,フィードバックを表現できる能力と,フィードバックから学習するエージェントの能力の両方に影響を与える,人間のフィードバックの質の指標を7つ同定した。
フィードバックの分類基準と品質基準に基づいて,人間のフィードバックから学習するシステムの要件と設計選択を導出する。
これらの要件と設計選択を、インタラクティブ機械学習における既存の作業に関連付けます。
その過程で、既存の仕事と将来の研究機会のギャップを識別する。
我々は、データ駆動型協調適応モデリングと多様な相互作用力学による強化学習の潜在能力を最大限に活用するために、学際的なコラボレーションを求めている。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - RLHF-Blender: A Configurable Interactive Interface for Learning from
Diverse Human Feedback [9.407901608317895]
人間のフィードバックから学習するための対話型インタフェースであるRLHF-Blenderを提案する。
RLHF-Blenderは、研究者が人間のフィードバックの特性と品質を調査できるモジュラー実験フレームワークを提供する。
本稿では,RLHF-Blenderによる具体的な研究の機会について論じる。
論文 参考訳(メタデータ) (2023-08-08T15:21:30Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Towards Interactive Reinforcement Learning with Intrinsic Feedback [1.7117805951258132]
強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間で大きな成長を遂げてきた。
HITL(Human-in-the-loop)への関心が高まり、RLアルゴリズムに人間の入力を組み込むことで、インタラクティブなRLのサブフィールドが生まれている。
この新たな,新たなフィードバック媒体を本質的なフィードバックと表現する。
論文 参考訳(メタデータ) (2021-12-02T19:29:26Z) - Accelerating the Convergence of Human-in-the-Loop Reinforcement Learning
with Counterfactual Explanations [1.8275108630751844]
Human-in-the-loop Reinforcement Learning (HRL)は、人間のフィードバックと強化学習技術を組み合わせてこの問題に対処する。
我々は,既存のTAMERフレームワークを拡張して,2種類の反現実的説明を用いて,人間のフィードバックを強化する。
論文 参考訳(メタデータ) (2021-08-03T08:27:28Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Widening the Pipeline in Human-Guided Reinforcement Learning with
Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。
本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文 参考訳(メタデータ) (2020-06-26T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。