Fugu-MT 論文翻訳(概要): Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World

論文の概要: Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World

arxiv url: http://arxiv.org/abs/2404.00246v1
Date: Sat, 30 Mar 2024 04:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 06:36:22.053859
Title: Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World
Title（参考訳）: 共同作業者にとって重要なこと:ブロックワールドにおける言語モデルの協調能力の評価
Authors: Guande Wu, Chen Zhao, Claudio Silva, He He,
Abstract要約: 2つのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築するブロックワールド環境を設計する。目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーンオブ思想のプロンプトを採用しています。
参考スコア（独自算出の注目度）: 13.005764902339523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language agents that interact with the world on their own have great potential for automating digital tasks. While large language model (LLM) agents have made progress in understanding and executing tasks such as textual games and webpage control, many real-world tasks also require collaboration with humans or other LLMs in equal roles, which involves intent understanding, task coordination, and communication. To test LLM's ability to collaborate, we design a blocks-world environment, where two agents, each having unique goals and skills, build a target structure together. To complete the goals, they can act in the world and communicate in natural language. Under this environment, we design increasingly challenging settings to evaluate different collaboration perspectives, from independent to more complex, dependent tasks. We further adopt chain-of-thought prompts that include intermediate reasoning steps to model the partner's state and identify and correct execution errors. Both human-machine and machine-machine experiments show that LLM agents have strong grounding capacities, and our approach significantly improves the evaluation metric.
Abstract（参考訳）: 自分自身で世界と対話する言語エージェントは、デジタルタスクを自動化する大きな可能性を秘めている。大規模言語モデル(LLM)エージェントは、テキストゲームやWebページコントロールなどのタスクの理解と実行を進歩させているが、現実のタスクの多くは、意図的理解、タスク調整、コミュニケーションを含む、人間や他のLLMと同等の役割で協調する必要がある。 LLMの協調性をテストするために、ブロックワールド環境を設計し、それぞれのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築する。目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。この環境下では、独立性からより複雑で依存的なタスクまで、さまざまなコラボレーションの観点を評価するために、ますます困難な設定を設計します。さらに私たちは、パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーン・オブ・シークレットのプロンプトを採用しています。人機械実験と機械機械実験の両方で, LLM は強い接地能力を有しており, 本手法は評価基準を大幅に改善する。

関連論文リスト

CoBel-World: Harnessing LLM Reasoning to Build a Collaborative Belief World for Optimizing Embodied Multi-Agent Collaboration [11.118352340795829]
大規模言語モデル(LLM)は、協調的なタスク解決のための有望な自律エージェントとして登場した。我々は,LLMエージェントを協調的信念の世界に適合させる新しいフレームワークであるCoBel-Worldを提案する。その結果,CoBel-Worldは通信コストを22～60%削減し,最強のベースラインに比べてタスク完了効率を4～28%向上した。
論文参考訳（メタデータ） (2025-09-26T07:03:52Z)
Multi-Agent Language Models: Advancing Cooperation, Coordination, and Adaptation [0.0]
協調型マルチエージェント強化学習(MARL)のレンズを用いた大規模言語モデル(LLM)における心の理論について検討する。提案手法は, 人工エージェントと人的エージェントの双方に適応し, 協力する能力を高めることを目的としている。
論文参考訳（メタデータ） (2025-06-11T02:12:34Z)
Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning [12.923902619187274]
この研究は、LLMが複雑な具体的推論タスクを実行するために適応的に協調する方法について研究する。 MINDcraftは、LLMエージェントがMinecraftのオープンワールドゲームでキャラクターを制御できるようにするプラットフォームである。実験により、現在最先端のエージェントに効果的に協力する際の主要なボトルネックは、効率的な自然言語通信であることがわかった。
論文参考訳（メタデータ） (2025-04-24T21:28:16Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction [1.6574413179773757]
大規模言語モデル(LLM)は、自然言語コマンドを解釈するために、その膨大な理解を活用できなければならない。しかし、これらのモデルは幻覚に悩まされ、安全上の問題やタスクからの逸脱を引き起こす可能性がある。本研究では、一つの独立したAIエージェントに対して複数のコラボレーティブAIシステムがテストされ、他のドメインの成功が人間とロボットのインタラクション性能の改善につながるかどうかを判定した。
論文参考訳（メタデータ） (2024-11-23T02:47:12Z)
CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models [19.73329768987112]
CurricuLLMは複雑なロボット制御タスクのためのカリキュラム学習ツールである。自然言語形式のタスク学習を支援するサブタスクを生成する。また、サブタスクの自然言語記述を実行可能なコードに変換する。 CurricuLLMは複雑なロボット制御タスクの学習を支援する。
論文参考訳（メタデータ） (2024-09-27T01:48:16Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)
Building Cooperative Embodied Agents Modularly with Large Language Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文参考訳（メタデータ） (2023-07-05T17:59:27Z)
Self-collaboration Code Generation via ChatGPT [35.88318116340547]
大規模言語モデル(LLM)はコード生成能力に優れていますが、複雑なタスクに苦労しています。本稿では,ChatGPT で実証した LLM を用いたコード生成のための自己協調フレームワークを提案する。この仮想チームを効果的に組織化し、管理するために、ソフトウェア開発方法論をフレームワークに組み入れます。
論文参考訳（メタデータ） (2023-04-15T16:33:32Z)
Inner Monologue: Embodied Reasoning through Planning with Language Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文参考訳（メタデータ） (2022-07-12T15:20:48Z)
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文参考訳（メタデータ） (2020-07-31T00:13:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。