論文の概要: Efficient Human-AI Coordination via Preparatory Language-based
Convention
- arxiv url: http://arxiv.org/abs/2311.00416v1
- Date: Wed, 1 Nov 2023 10:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:09:52.371700
- Title: Efficient Human-AI Coordination via Preparatory Language-based
Convention
- Title(参考訳): 準備言語に基づく条約による効率的AIコーディネーション
- Authors: Cong Guan, Lichao Zhang, Chunpeng Fan, Yichen Li, Feng Chen, Lihe Li,
Yunjia Tian, Lei Yuan, Yang Yu
- Abstract要約: 既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。
提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
- 参考スコア(独自算出の注目度): 17.840956842806975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing intelligent agents capable of seamless coordination with humans is
a critical step towards achieving artificial general intelligence. Existing
methods for human-AI coordination typically train an agent to coordinate with a
diverse set of policies or with human models fitted from real human data.
However, the massively diverse styles of human behavior present obstacles for
AI systems with constrained capacity, while high quality human data may not be
readily available in real-world scenarios. In this study, we observe that prior
to coordination, humans engage in communication to establish conventions that
specify individual roles and actions, making their coordination proceed in an
orderly manner. Building upon this observation, we propose employing the large
language model (LLM) to develop an action plan (or equivalently, a convention)
that effectively guides both human and AI. By inputting task requirements,
human preferences, the number of agents, and other pertinent information into
the LLM, it can generate a comprehensive convention that facilitates a clear
understanding of tasks and responsibilities for all parties involved.
Furthermore, we demonstrate that decomposing the convention formulation problem
into sub-problems with multiple new sessions being sequentially employed and
human feedback, will yield a more efficient coordination convention.
Experimental evaluations conducted in the Overcooked-AI environment, utilizing
a human proxy model, highlight the superior performance of our proposed method
compared to existing learning-based approaches. When coordinating with real
humans, our method achieves better alignment with human preferences and an
average performance improvement of 15% compared to the state-of-the-art.
- Abstract(参考訳): 人間とのシームレスな連携が可能なインテリジェントエージェントの開発は、人工知能の実現に向けた重要なステップである。
既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
しかし、人間の行動の非常に多様なスタイルは、制限された能力を持つaiシステムに障害をもたらし、高品質な人間データは現実世界のシナリオでは容易に利用できない可能性がある。
本研究では,コーディネーションに先立って人間がコミュニケーションを行い,個々の役割や行動を特定するコンベンションを確立することにより,コーディネーションを秩序ある方法で進行させることを観察する。
この観察に基づいて,人間とaiの両方を効果的に導く行動計画(あるいは慣例)を開発するために,大規模言語モデル(llm)を採用することを提案する。
タスク要件、人間の好み、エージェントの数、その他の関連する情報をLSMに入力することで、関連するすべての関係者のタスクや責任を明確に理解するための包括的な規約を作成できる。
さらに、コンベンションの定式化問題をサブプロブレムに分解し、複数の新しいセッションが順次採用され、人間のフィードバックによって、より効率的なコーディネーション・コンベンションが得られることを示す。
ヒューマンプロキシモデルを用いたオーバークッキングAI環境での実験評価では,既存の学習手法と比較して,提案手法の優れた性能を強調した。
実際の人間とコーディネートする場合,本手法は人間の好みとの整合性が向上し,平均性能が15%向上する。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。
CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
我々は,この課題に対する計画ベースラインと学習ベースラインのベンチマークを行い,大規模言語モデルと行動モデリングを活用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T04:41:12Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。
我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。
我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:42:49Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Language Instructed Reinforcement Learning for Human-AI Coordination [23.694362407434753]
InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。
InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-04-13T04:47:31Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。