Fugu-MT 論文翻訳(概要): Efficient Human-AI Coordination via Preparatory Language-based Convention

論文の概要: Efficient Human-AI Coordination via Preparatory Language-based Convention

arxiv url: http://arxiv.org/abs/2311.00416v1
Date: Wed, 1 Nov 2023 10:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 14:09:52.371700
Title: Efficient Human-AI Coordination via Preparatory Language-based Convention
Title（参考訳）: 準備言語に基づく条約による効率的AIコーディネーション
Authors: Cong Guan, Lichao Zhang, Chunpeng Fan, Yichen Li, Feng Chen, Lihe Li, Yunjia Tian, Lei Yuan, Yang Yu
Abstract要約: 既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
参考スコア（独自算出の注目度）: 17.840956842806975
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Developing intelligent agents capable of seamless coordination with humans is a critical step towards achieving artificial general intelligence. Existing methods for human-AI coordination typically train an agent to coordinate with a diverse set of policies or with human models fitted from real human data. However, the massively diverse styles of human behavior present obstacles for AI systems with constrained capacity, while high quality human data may not be readily available in real-world scenarios. In this study, we observe that prior to coordination, humans engage in communication to establish conventions that specify individual roles and actions, making their coordination proceed in an orderly manner. Building upon this observation, we propose employing the large language model (LLM) to develop an action plan (or equivalently, a convention) that effectively guides both human and AI. By inputting task requirements, human preferences, the number of agents, and other pertinent information into the LLM, it can generate a comprehensive convention that facilitates a clear understanding of tasks and responsibilities for all parties involved. Furthermore, we demonstrate that decomposing the convention formulation problem into sub-problems with multiple new sessions being sequentially employed and human feedback, will yield a more efficient coordination convention. Experimental evaluations conducted in the Overcooked-AI environment, utilizing a human proxy model, highlight the superior performance of our proposed method compared to existing learning-based approaches. When coordinating with real humans, our method achieves better alignment with human preferences and an average performance improvement of 15% compared to the state-of-the-art.
Abstract（参考訳）: 人間とのシームレスな連携が可能なインテリジェントエージェントの開発は、人工知能の実現に向けた重要なステップである。既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。しかし、人間の行動の非常に多様なスタイルは、制限された能力を持つaiシステムに障害をもたらし、高品質な人間データは現実世界のシナリオでは容易に利用できない可能性がある。本研究では,コーディネーションに先立って人間がコミュニケーションを行い,個々の役割や行動を特定するコンベンションを確立することにより,コーディネーションを秩序ある方法で進行させることを観察する。この観察に基づいて,人間とaiの両方を効果的に導く行動計画(あるいは慣例)を開発するために,大規模言語モデル(llm)を採用することを提案する。タスク要件、人間の好み、エージェントの数、その他の関連する情報をLSMに入力することで、関連するすべての関係者のタスクや責任を明確に理解するための包括的な規約を作成できる。さらに、コンベンションの定式化問題をサブプロブレムに分解し、複数の新しいセッションが順次採用され、人間のフィードバックによって、より効率的なコーディネーション・コンベンションが得られることを示す。ヒューマンプロキシモデルを用いたオーバークッキングAI環境での実験評価では,既存の学習手法と比較して,提案手法の優れた性能を強調した。実際の人間とコーディネートする場合,本手法は人間の好みとの整合性が向上し,平均性能が15%向上する。

関連論文リスト

Improving Human-AI Coordination through Adversarial Training and Generative Models [36.54154192505703]
新たな人間に一般化するには、人間の行動の多様性を捉えたデータに関する訓練が必要である。敵の訓練は、そのようなデータを検索し、エージェントが堅牢であることを保証するための手段の1つである。本稿では、事前学習された生成モデルを組み合わせて、有効な協調エージェントポリシーをシミュレートする自己サボタージュを克服するための新しい戦略を提案する。
論文参考訳（メタデータ） (2025-04-21T21:53:00Z)
Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models [14.45823275027527]
品質多様性(QD)最適化は、多様な強化学習(RL)エージェントの振る舞いを生成することができる。我々はまず、人間-物体実験を通して、人間がこの領域で様々な協調行動とコミュニケーション行動を示すことを示す。そして、我々の手法は、人間のチームデータからトレンドを効果的に再現し、観察できない振る舞いを捉えることができることを示す。
論文参考訳（メタデータ） (2025-04-04T23:09:40Z)
Automatic Curriculum Design for Zero-Shot Human-AI Coordination [4.634917646296438]
ゼロショットヒューマンAIコーディネーション(ゼロショットヒューマンAIコーディネーション)とは、人間データを使わずに人間と協調するエゴエージェントのトレーニングである。ゼロショット人間-AI協調設定のためのユーティリティ関数とコプレーヤサンプリングを提案する。提案手法は,他のベースラインモデルよりも優れており,目に見えない環境での人間とAIの協調性能が高い。
論文参考訳（メタデータ） (2025-03-10T12:55:31Z)
Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文参考訳（メタデータ） (2024-12-20T09:21:15Z)
Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文参考訳（メタデータ） (2024-11-21T08:36:17Z)
Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。 CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。我々は,この課題に対する計画ベースラインと学習ベースラインのベンチマークを行い,大規模言語モデルと行動モデリングを活用した新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-04T04:41:12Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Large Language Model-based Human-Agent Collaboration for Complex Task Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。 Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文参考訳（メタデータ） (2024-02-20T11:03:36Z)
On the Effect of Contextual Information on Human Delegation Behavior in Human-AI collaboration [3.9253315480927964]
我々は、AIにインスタンスを委譲するために、人間の意思決定に文脈情報を提供することの効果について検討する。参加者にコンテキスト情報を提供することで,人間-AIチームのパフォーマンスが大幅に向上することがわかった。本研究は,人間代表団における人間とAIの相互作用の理解を深め,より効果的な協調システムを設計するための実用的な洞察を提供する。
論文参考訳（メタデータ） (2024-01-09T18:59:47Z)
Language Instructed Reinforcement Learning for Human-AI Coordination [23.694362407434753]
InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。 InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-04-13T04:47:31Z)
Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文参考訳（メタデータ） (2023-02-06T17:22:18Z)
PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文参考訳（メタデータ） (2023-01-16T12:14:58Z)
Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文参考訳（メタデータ） (2021-08-13T03:14:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。