Fugu-MT 論文翻訳(概要): TimeArena: Shaping Efficient Multitasking Language Agents in a Time-Aware Simulation

論文の概要: TimeArena: Shaping Efficient Multitasking Language Agents in a Time-Aware Simulation

arxiv url: http://arxiv.org/abs/2402.05733v1
Date: Thu, 8 Feb 2024 15:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 14:26:11.714706
Title: TimeArena: Shaping Efficient Multitasking Language Agents in a Time-Aware Simulation
Title（参考訳）: TimeArena: Time-Aware シミュレーションによる効率的なマルチタスク言語エージェントの作成
Authors: Yikai Zhang, Siyu Yuan, Caiyu Hu, Kyle Richardson, Yanghua Xiao, Jiangjie Chen
Abstract要約: TimeArenaは、複雑な時間的ダイナミクスと制約を組み込んだ、新しいテキストシミュレート環境である。 TimeArenaは、料理、家庭活動、実験室の仕事で30の現実世界の仕事をこなす。
参考スコア（独自算出の注目度）: 43.02071402274328
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite remarkable advancements in emulating human-like behavior through Large Language Models (LLMs), current textual simulations do not adequately address the notion of time. To this end, we introduce TimeArena, a novel textual simulated environment that incorporates complex temporal dynamics and constraints that better reflect real-life planning scenarios. In TimeArena, agents are asked to complete multiple tasks as soon as possible, allowing for parallel processing to save time. We implement the dependency between actions, the time duration for each action, and the occupancy of the agent and the objects in the environment. TimeArena grounds to 30 real-world tasks in cooking, household activities, and laboratory work. We conduct extensive experiments with various state-of-the-art LLMs using TimeArena. Our findings reveal that even the most powerful models, e.g., GPT-4, still lag behind humans in effective multitasking, underscoring the need for enhanced temporal awareness in the development of language agents.
Abstract（参考訳）: LLM(Large Language Models)による人間のような行動のエミュレートの顕著な進歩にもかかわらず、現在のテキストシミュレーションは時間の概念に十分対応していない。そこで本稿では,リアルタイム計画シナリオをよりよく反映する複雑な時間ダイナミクスと制約を組み込んだ,テキストシミュレーション環境であるtimearenaを紹介する。 TimeArenaでは、エージェントはできるだけ早く複数のタスクを完了するよう求められ、並列処理で時間を節約できる。我々は、アクション間の依存性、各アクションの時間長、エージェントと環境内のオブジェクトの占有度を実装します。 TimeArenaは、料理、家庭活動、実験室の仕事で30の現実世界の仕事をこなす。我々はTimeArena を用いた様々な最先端 LLM 実験を行った。以上の結果から, GPT-4のような最も強力なモデルでさえ, 効果的なマルチタスキングにおいて人間に遅れをとっており, 言語エージェントの開発における時間的意識の向上の必要性が示唆された。

関連論文リスト

ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset [39.309940166755396]
時系列データは、産業モニタリング、医療診断、気候研究などの様々な応用において重要である。本稿では、時系列質問応答(Time-Series Question Answering)タスクを導入し、EngineMT-QAをリリースする。 Instruct Time Transformer(ITFormer)は,時系列エンコーダを凍結した大言語モデルでブリッジする新しいフレームワークである。
論文参考訳（メタデータ） (2025-06-25T02:33:47Z)
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios [26.668042778743835]
実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。 TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。推論モデルと非推論モデルについて広範な実験を行う。 TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
論文参考訳（メタデータ） (2025-05-19T09:22:02Z)
TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文参考訳（メタデータ） (2025-01-13T13:47:05Z)
AI Metropolis: Scaling Large Language Model-based Multi-Agent Simulation with Out-of-order Execution [15.596642151634319]
AI Metropolisは、注文外実行スケジューリングを導入することで、LLMエージェントシミュレーションの効率を改善するシミュレーションエンジンである。我々の評価では,グローバル同期を用いた標準並列シミュレーションにより,AI Metropolisは1.3倍から4.15倍の高速化を実現している。
論文参考訳（メタデータ） (2024-11-05T21:54:14Z)
Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文参考訳（メタデータ） (2024-10-28T23:57:19Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems [21.312052922118585]
時間的関係抽出(TRE)は、出来事や行動の進化を把握し、関連するタスクのワークフローを形成することを目的としている。本稿では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-21T01:52:37Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Temporal Grounding of Activities using Multimodal Large Language Models [0.0]
画像ベースとテキストベースの大規模言語モデル(LLM)を時間的活動局所化のための2段階的アプローチで組み合わせることの有効性を評価する。提案手法は既存のビデオベースLLMよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-30T09:11:02Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
An Interleaving Semantics of the Timed Concurrent Language for Argumentation to Model Debates and Dialogue Games [0.0]
エージェント間の同時相互作用をモデル化する言語を提案する。このような言語は、エージェントが彼らの信念の受容可能性についてコミュニケーションし、推論するために使用する共有メモリを利用する。知的エージェント間で行われる議論や対話ゲームのようなインタラクションをモデル化するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2023-06-13T10:41:28Z)
Inner Monologue: Embodied Reasoning through Planning with Language Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文参考訳（メタデータ） (2022-07-12T15:20:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。