論文の概要: Efficient Human-AI Coordination via Preparatory Language-based
Convention
- arxiv url: http://arxiv.org/abs/2311.00416v1
- Date: Wed, 1 Nov 2023 10:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:09:52.371700
- Title: Efficient Human-AI Coordination via Preparatory Language-based
Convention
- Title(参考訳): 準備言語に基づく条約による効率的AIコーディネーション
- Authors: Cong Guan, Lichao Zhang, Chunpeng Fan, Yichen Li, Feng Chen, Lihe Li,
Yunjia Tian, Lei Yuan, Yang Yu
- Abstract要約: 既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。
提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
- 参考スコア(独自算出の注目度): 17.840956842806975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing intelligent agents capable of seamless coordination with humans is
a critical step towards achieving artificial general intelligence. Existing
methods for human-AI coordination typically train an agent to coordinate with a
diverse set of policies or with human models fitted from real human data.
However, the massively diverse styles of human behavior present obstacles for
AI systems with constrained capacity, while high quality human data may not be
readily available in real-world scenarios. In this study, we observe that prior
to coordination, humans engage in communication to establish conventions that
specify individual roles and actions, making their coordination proceed in an
orderly manner. Building upon this observation, we propose employing the large
language model (LLM) to develop an action plan (or equivalently, a convention)
that effectively guides both human and AI. By inputting task requirements,
human preferences, the number of agents, and other pertinent information into
the LLM, it can generate a comprehensive convention that facilitates a clear
understanding of tasks and responsibilities for all parties involved.
Furthermore, we demonstrate that decomposing the convention formulation problem
into sub-problems with multiple new sessions being sequentially employed and
human feedback, will yield a more efficient coordination convention.
Experimental evaluations conducted in the Overcooked-AI environment, utilizing
a human proxy model, highlight the superior performance of our proposed method
compared to existing learning-based approaches. When coordinating with real
humans, our method achieves better alignment with human preferences and an
average performance improvement of 15% compared to the state-of-the-art.
- Abstract(参考訳): 人間とのシームレスな連携が可能なインテリジェントエージェントの開発は、人工知能の実現に向けた重要なステップである。
既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
しかし、人間の行動の非常に多様なスタイルは、制限された能力を持つaiシステムに障害をもたらし、高品質な人間データは現実世界のシナリオでは容易に利用できない可能性がある。
本研究では,コーディネーションに先立って人間がコミュニケーションを行い,個々の役割や行動を特定するコンベンションを確立することにより,コーディネーションを秩序ある方法で進行させることを観察する。
この観察に基づいて,人間とaiの両方を効果的に導く行動計画(あるいは慣例)を開発するために,大規模言語モデル(llm)を採用することを提案する。
タスク要件、人間の好み、エージェントの数、その他の関連する情報をLSMに入力することで、関連するすべての関係者のタスクや責任を明確に理解するための包括的な規約を作成できる。
さらに、コンベンションの定式化問題をサブプロブレムに分解し、複数の新しいセッションが順次採用され、人間のフィードバックによって、より効率的なコーディネーション・コンベンションが得られることを示す。
ヒューマンプロキシモデルを用いたオーバークッキングAI環境での実験評価では,既存の学習手法と比較して,提案手法の優れた性能を強調した。
実際の人間とコーディネートする場合,本手法は人間の好みとの整合性が向上し,平均性能が15%向上する。
関連論文リスト
- Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。
CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
我々は,この課題に対する計画ベースラインと学習ベースラインのベンチマークを行い,大規模言語モデルと行動モデリングを活用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T04:41:12Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - On the Effect of Contextual Information on Human Delegation Behavior in
Human-AI collaboration [3.9253315480927964]
我々は、AIにインスタンスを委譲するために、人間の意思決定に文脈情報を提供することの効果について検討する。
参加者にコンテキスト情報を提供することで,人間-AIチームのパフォーマンスが大幅に向上することがわかった。
本研究は,人間代表団における人間とAIの相互作用の理解を深め,より効果的な協調システムを設計するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2024-01-09T18:59:47Z) - Language Instructed Reinforcement Learning for Human-AI Coordination [23.694362407434753]
InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。
InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-04-13T04:47:31Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。