論文の概要: Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World
- arxiv url: http://arxiv.org/abs/2404.00246v1
- Date: Sat, 30 Mar 2024 04:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 06:36:22.053859
- Title: Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World
- Title(参考訳): 共同作業者にとって重要なこと:ブロックワールドにおける言語モデルの協調能力の評価
- Authors: Guande Wu, Chen Zhao, Claudio Silva, He He,
- Abstract要約: 2つのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築するブロックワールド環境を設計する。
目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。
パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーンオブ思想のプロンプトを採用しています。
- 参考スコア(独自算出の注目度): 13.005764902339523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language agents that interact with the world on their own have great potential for automating digital tasks. While large language model (LLM) agents have made progress in understanding and executing tasks such as textual games and webpage control, many real-world tasks also require collaboration with humans or other LLMs in equal roles, which involves intent understanding, task coordination, and communication. To test LLM's ability to collaborate, we design a blocks-world environment, where two agents, each having unique goals and skills, build a target structure together. To complete the goals, they can act in the world and communicate in natural language. Under this environment, we design increasingly challenging settings to evaluate different collaboration perspectives, from independent to more complex, dependent tasks. We further adopt chain-of-thought prompts that include intermediate reasoning steps to model the partner's state and identify and correct execution errors. Both human-machine and machine-machine experiments show that LLM agents have strong grounding capacities, and our approach significantly improves the evaluation metric.
- Abstract(参考訳): 自分自身で世界と対話する言語エージェントは、デジタルタスクを自動化する大きな可能性を秘めている。
大規模言語モデル(LLM)エージェントは、テキストゲームやWebページコントロールなどのタスクの理解と実行を進歩させているが、現実のタスクの多くは、意図的理解、タスク調整、コミュニケーションを含む、人間や他のLLMと同等の役割で協調する必要がある。
LLMの協調性をテストするために、ブロックワールド環境を設計し、それぞれのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築する。
目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。
この環境下では、独立性からより複雑で依存的なタスクまで、さまざまなコラボレーションの観点を評価するために、ますます困難な設定を設計します。
さらに私たちは、パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーン・オブ・シークレットのプロンプトを採用しています。
人機械実験と機械機械実験の両方で, LLM は強い接地能力を有しており, 本手法は評価基準を大幅に改善する。
関連論文リスト
- Automatic Robotic Development through Collaborative Framework by Large
Language Models [13.957351735394683]
本研究では,現実世界のロボット開発者からヒントを得た,革新的な自動コラボレーションフレームワークを提案する。
このフレームワークは、異なる役割のアナリスト、プログラマ、テスタに複数のLLMを使用している。
アナリストはユーザー要件を深く掘り下げ、プログラマが正確なコードを作成できるようにし、テスタはパラメータを微調整する。
論文 参考訳(メタデータ) (2024-02-06T04:40:27Z) - Large Language Models for Robotics: Opportunities, Challenges, and
Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。
ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。
本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T03:22:16Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MetaAgents: Simulating Interactions of Human Behaviors for LLM-based
Task-oriented Coordination via Collaborative Generative Agents [27.911816995891726]
我々は,一貫した行動パターンと課題解決能力を備えたLLMベースのエージェントを,協調的生成エージェントとして導入する。
本研究では,人間のような推論能力と専門的スキルを備えた協調生成エージェントを実現する新しい枠組みを提案する。
我々の研究は、タスク指向の社会シミュレーションにおける大規模言語モデルの役割と進化に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-10-10T10:17:58Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。