Fugu-MT 論文翻訳(概要): ITCMA: A Generative Agent Based on a Computational Consciousness Structure

論文の概要: ITCMA: A Generative Agent Based on a Computational Consciousness Structure

arxiv url: http://arxiv.org/abs/2403.20097v2
Date: Sat, 8 Jun 2024 13:04:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 00:34:14.937426
Title: ITCMA: A Generative Agent Based on a Computational Consciousness Structure
Title（参考訳）: ITCMA:計算意識構造に基づく生成エージェント
Authors: Hanzhong Zhang, Jibin Yin, Haoyang Wang, Ziwei Xiang,
Abstract要約: 本稿では、人間の意識の過程をシミュレートする計算的意識構造であるITCM(Internal Time-Consciousness Machine)を紹介する。我々はITCMベースのエージェント(ITCMA)を提案し、オープンワールド環境でのアクション生成と推論をサポートし、個別にタスクを完了させることができる。四足歩行ロボットを用いた実世界のタスクでは、トレーニングされていないITCMAは85%のタスク完了率を達成する。
参考スコア（独自算出の注目度）: 1.195997376711774
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) still face challenges in tasks requiring understanding implicit instructions and applying common-sense knowledge. In such scenarios, LLMs may require multiple attempts to achieve human-level performance, potentially leading to inaccurate responses or inferences in practical environments, affecting their long-term consistency and behavior. This paper introduces the Internal Time-Consciousness Machine (ITCM), a computational consciousness structure to simulate the process of human consciousness. We further propose the ITCM-based Agent (ITCMA), which supports action generation and reasoning in open-world settings, and can independently complete tasks. ITCMA enhances LLMs' ability to understand implicit instructions and apply common-sense knowledge by considering agents' interaction and reasoning with the environment. Evaluations in the Alfworld environment show that trained ITCMA outperforms the state-of-the-art (SOTA) by 9% on the seen set. Even untrained ITCMA achieves a 96% task completion rate on the seen set, 5% higher than SOTA, indicating its superiority over traditional intelligent agents in utility and generalization. In real-world tasks with quadruped robots, the untrained ITCMA achieves an 85% task completion rate, which is close to its performance in the unseen set, demonstrating its comparable utility and universality in real-world settings.
Abstract（参考訳）: 大きな言語モデル(LLM)は、暗黙の命令を理解し、常識的な知識を適用することを必要とするタスクにおいて、依然として課題に直面している。このようなシナリオでは、LLMは人間レベルのパフォーマンスを達成するために複数の試みを必要とする可能性がある。本稿では、人間の意識の過程をシミュレートする計算的意識構造であるITCM(Internal Time-Consciousness Machine)を紹介する。さらに、オープンワールド環境でのアクション生成と推論をサポートし、個別にタスクを完了できるITCMベースのエージェント(ITCMA)を提案する。 ITCMAは、エージェントのインタラクションや環境への推論を考慮し、暗黙の指示を理解する能力を高め、常識的な知識を適用する。 Alfworld環境での評価によると、トレーニングされたITCMAは、そのセットで最先端(SOTA)を9%上回っている。トレーニングされていないITCMAでさえ、そのセット上で96%のタスク完了率が達成され、SOTAよりも5%高い。四足歩行ロボットを用いた実世界のタスクでは、トレーニングされていないITCMAは85%のタスク完了率を達成する。

関連論文リスト

AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文参考訳（メタデータ） (2026-01-28T13:49:18Z)
What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文参考訳（メタデータ） (2026-01-14T14:09:11Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
Estimating the Empowerment of Language Model Agents [4.9877302321739725]
EELMAはマルチターンテキストインタラクションから効果的なエンパワーメントを近似するアルゴリズムである。我々はEELMAを言語ゲームとスケールアップしたWebブラウザのシナリオの両方で検証する。
論文参考訳（メタデータ） (2025-09-26T15:46:14Z)
MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools [34.40084689889526]
Model Context Protocol (MCP) はエージェント・ツールの統合と相互運用性を高めるために設計されたオープン標準である。既存のベンチマークでは、この新しいパラダイムで実世界のエージェントのパフォーマンスをキャプチャできない場合が多い。 MCP-AgentBenchは、MPPを介するツールインタラクションにおいて、言語エージェントの機能を厳格に評価するために特別に設計された包括的なベンチマークである。
論文参考訳（メタデータ） (2025-09-10T14:08:40Z)
FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文参考訳（メタデータ） (2025-05-26T08:21:46Z)
Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation [39.43049944895508]
Instruction-Augmented Long-Horizon Planning (IALP) システムを提案する。その結果, IALPシステムでは, 平均成功率80%を超えるタスクを効率的に解けることがわかった。
論文参考訳（メタデータ） (2025-03-11T06:37:33Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文参考訳（メタデータ） (2024-11-04T17:30:51Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World [13.005764902339523]
2つのエージェントがそれぞれ独自の目標とスキルを持ち、ターゲット構造を一緒に構築するブロックワールド環境を設計する。目標を達成するために、彼らは世界で行動し、自然言語でコミュニケーションすることができる。パートナーの状態をモデル化し、実行エラーを特定し、修正するための中間的推論ステップを含む、チェーンオブ思想のプロンプトを採用しています。
論文参考訳（メタデータ） (2024-03-30T04:48:38Z)
OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following [38.99303334457817]
EIF(Embodied Instruction following)は、自然言語の指示を満たすために、エージェントが自我中心の観察を通して環境と対話することを要求する、実践的な学習において重要なタスクである。近年,大規模な言語モデル(LLM)をフレームワーク中心のアプローチで採用し,EDFの性能向上が図られている。 EIFタスクの解決に不可欠なコアコンポーネント(Observer、Planner、Executor)を記述した包括的なフレームワークであるOPExを紹介します。
論文参考訳（メタデータ） (2024-03-05T14:53:53Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Self-driven Grounding: Large Language Model Agents with Automatical Language-aligned Skill Learning [38.038143548554686]
大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。本稿では,自己駆動型スキル学習でLLMを自動的に,段階的にグラウンド化するための,自己駆動型グラウンディングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-04T04:31:24Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。