論文の概要: Efficient Human-AI Coordination via Preparatory Language-based
Convention
- arxiv url: http://arxiv.org/abs/2311.00416v1
- Date: Wed, 1 Nov 2023 10:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:09:52.371700
- Title: Efficient Human-AI Coordination via Preparatory Language-based
Convention
- Title(参考訳): 準備言語に基づく条約による効率的AIコーディネーション
- Authors: Cong Guan, Lichao Zhang, Chunpeng Fan, Yichen Li, Feng Chen, Lihe Li,
Yunjia Tian, Lei Yuan, Yang Yu
- Abstract要約: 既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。
提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
- 参考スコア(独自算出の注目度): 17.840956842806975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing intelligent agents capable of seamless coordination with humans is
a critical step towards achieving artificial general intelligence. Existing
methods for human-AI coordination typically train an agent to coordinate with a
diverse set of policies or with human models fitted from real human data.
However, the massively diverse styles of human behavior present obstacles for
AI systems with constrained capacity, while high quality human data may not be
readily available in real-world scenarios. In this study, we observe that prior
to coordination, humans engage in communication to establish conventions that
specify individual roles and actions, making their coordination proceed in an
orderly manner. Building upon this observation, we propose employing the large
language model (LLM) to develop an action plan (or equivalently, a convention)
that effectively guides both human and AI. By inputting task requirements,
human preferences, the number of agents, and other pertinent information into
the LLM, it can generate a comprehensive convention that facilitates a clear
understanding of tasks and responsibilities for all parties involved.
Furthermore, we demonstrate that decomposing the convention formulation problem
into sub-problems with multiple new sessions being sequentially employed and
human feedback, will yield a more efficient coordination convention.
Experimental evaluations conducted in the Overcooked-AI environment, utilizing
a human proxy model, highlight the superior performance of our proposed method
compared to existing learning-based approaches. When coordinating with real
humans, our method achieves better alignment with human preferences and an
average performance improvement of 15% compared to the state-of-the-art.
- Abstract(参考訳): 人間とのシームレスな連携が可能なインテリジェントエージェントの開発は、人工知能の実現に向けた重要なステップである。
既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
しかし、人間の行動の非常に多様なスタイルは、制限された能力を持つaiシステムに障害をもたらし、高品質な人間データは現実世界のシナリオでは容易に利用できない可能性がある。
本研究では,コーディネーションに先立って人間がコミュニケーションを行い,個々の役割や行動を特定するコンベンションを確立することにより,コーディネーションを秩序ある方法で進行させることを観察する。
この観察に基づいて,人間とaiの両方を効果的に導く行動計画(あるいは慣例)を開発するために,大規模言語モデル(llm)を採用することを提案する。
タスク要件、人間の好み、エージェントの数、その他の関連する情報をLSMに入力することで、関連するすべての関係者のタスクや責任を明確に理解するための包括的な規約を作成できる。
さらに、コンベンションの定式化問題をサブプロブレムに分解し、複数の新しいセッションが順次採用され、人間のフィードバックによって、より効率的なコーディネーション・コンベンションが得られることを示す。
ヒューマンプロキシモデルを用いたオーバークッキングAI環境での実験評価では,既存の学習手法と比較して,提案手法の優れた性能を強調した。
実際の人間とコーディネートする場合,本手法は人間の好みとの整合性が向上し,平均性能が15%向上する。
関連論文リスト
- Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - On the Effect of Contextual Information on Human Delegation Behavior in
Human-AI collaboration [3.9253315480927964]
我々は、AIにインスタンスを委譲するために、人間の意思決定に文脈情報を提供することの効果について検討する。
参加者にコンテキスト情報を提供することで,人間-AIチームのパフォーマンスが大幅に向上することがわかった。
本研究は,人間代表団における人間とAIの相互作用の理解を深め,より効果的な協調システムを設計するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2024-01-09T18:59:47Z) - Learning to Complement with Multiple Humans (LECOMH): Integrating
Multi-rater and Noisy-Label Learning into Human-AI Collaboration [13.732390828747848]
本稿では,新しいベンチマークとLECOMH(Learning to Complement with Multiple Humans)アプローチを併用し,ノイズの多いラベル学習,マルチレータ学習,人間とAIのコラボレーションを行う。
LeCOMHは、テスト中の人間のコラボレーションのレベルを最適化し、コラボレーションコストを最小化しながら、分類精度を最適化することを目的としている。
LECOMHとヒトとAIのコラボレーション手法を,提案したベンチマークを用いて定量的に比較した。
論文 参考訳(メタデータ) (2023-11-22T05:31:06Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Language Instructed Reinforcement Learning for Human-AI Coordination [23.694362407434753]
InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。
InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-04-13T04:47:31Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。