論文の概要: Language Instructed Reinforcement Learning for Human-AI Coordination
- arxiv url: http://arxiv.org/abs/2304.07297v2
- Date: Sat, 10 Jun 2023 20:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:33:09.925507
- Title: Language Instructed Reinforcement Learning for Human-AI Coordination
- Title(参考訳): 人間-AI協調のための言語指導強化学習
- Authors: Hengyuan Hu, Dorsa Sadigh
- Abstract要約: InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。
InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 23.694362407434753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the fundamental quests of AI is to produce agents that coordinate well
with humans. This problem is challenging, especially in domains that lack high
quality human behavioral data, because multi-agent reinforcement learning (RL)
often converges to different equilibria from the ones that humans prefer. We
propose a novel framework, instructRL, that enables humans to specify what kind
of strategies they expect from their AI partners through natural language
instructions. We use pretrained large language models to generate a prior
policy conditioned on the human instruction and use the prior to regularize the
RL objective. This leads to the RL agent converging to equilibria that are
aligned with human preferences. We show that instructRL converges to human-like
policies that satisfy the given instructions in a proof-of-concept environment
as well as the challenging Hanabi benchmark. Finally, we show that knowing the
language instruction significantly boosts human-AI coordination performance in
human evaluations in Hanabi.
- Abstract(参考訳): AIの基本的な課題の1つは、人間とうまく協調するエージェントを作ることである。
マルチエージェント強化学習(rl:multi-agent reinforcement learning)は、人間が好むものと異なる均衡に収束することが多いからだ。
自然言語による指示によって、aiパートナーにどのような戦略を期待できるかを人間が指定できる、新しいフレームワークinstructrlを提案する。
我々は、事前訓練された大規模言語モデルを用いて、人間の指示に基づく事前ポリシーを生成し、RLの目的を正規化するために事前ポリシーを使用する。
これにより、RLエージェントはヒトの嗜好に沿った平衡に収束する。
InstructRLは,概念実証環境において与えられた指示を満足する人間的なポリシーと,ハナビベンチマークに収束することを示す。
最後に,ハナビにおける人的評価において,言語指導の知識が人間とAIの協調性能を著しく向上させることを示す。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Efficient Human-AI Coordination via Preparatory Language-based
Convention [17.840956842806975]
既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。
提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
論文 参考訳(メタデータ) (2023-11-01T10:18:23Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Instructive artificial intelligence (AI) for human training, assistance,
and explainability [0.24629531282150877]
ニューラルネットワークが従来のAI(XAI)の代替手段として人間の研修生にどのように教えるかを示す。
AIは人間の行動を調べ、より良いパフォーマンスをもたらす人間の戦略のバリエーションを計算する。
結果は、ハナビにおける人間の意思決定と人間-AIチームを改善するAIインストラクションの能力について提示される。
論文 参考訳(メタデータ) (2021-11-02T16:46:46Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。