論文の概要: Automatic Cognitive Task Generation for In-Situ Evaluation of Embodied Agents
- arxiv url: http://arxiv.org/abs/2602.05249v1
- Date: Thu, 05 Feb 2026 03:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.737866
- Title: Automatic Cognitive Task Generation for In-Situ Evaluation of Embodied Agents
- Title(参考訳): エージェントのその場評価のための自動認知タスク生成
- Authors: Xinyi He, Ying Yang, Chuanjian Fu, Sihan Guo, Songchun Zhu, Lifeng Fan, Zhenliang Zhang, Yujia Peng,
- Abstract要約: 本研究では,人間の認知に触発された未確認環境に対する動的タスク生成手法を提案する。
インタラクションの段階では、エージェントは環境と積極的に対話し、タスクの実行と生成の間のループを作成する。
10シーンにわたる実験では、TAAは2サイクルで87,876のタスクを自動生成している。
- 参考スコア(独自算出の注目度): 43.01384379901339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As general intelligent agents are poised for widespread deployment in diverse households, evaluation tailored to each unique unseen 3D environment has become a critical prerequisite. However, existing benchmarks suffer from severe data contamination and a lack of scene specificity, inadequate for assessing agent capabilities in unseen settings. To address this, we propose a dynamic in-situ task generation method for unseen environments inspired by human cognition. We define tasks through a structured graph representation and construct a two-stage interaction-evolution task generation system for embodied agents (TEA). In the interaction stage, the agent actively interacts with the environment, creating a loop between task execution and generation that allows for continuous task generation. In the evolution stage, task graph modeling allows us to recombine and reuse existing tasks to generate new ones without external data. Experiments across 10 unseen scenes demonstrate that TEA automatically generated 87,876 tasks in two cycles, which human verification confirmed to be physically reasonable and encompassing essential daily cognitive capabilities. Benchmarking SOTA models against humans on our in-situ tasks reveals that models, despite excelling on public benchmarks, perform surprisingly poorly on basic perception tasks, severely lack 3D interaction awareness and show high sensitivity to task types in reasoning. These sobering findings highlight the necessity of in-situ evaluation before deploying agents into real-world human environments.
- Abstract(参考訳): 一般の知的エージェントは多様な家庭に広く展開する可能性があるため、ユニークな3D環境に合わせた評価が重要な前提となっている。
しかし、既存のベンチマークは厳しいデータ汚染とシーン特異性の欠如に悩まされており、目に見えない環境でエージェントの能力を評価するのに不十分である。
そこで本研究では,人間の認知に触発された未知の環境に対する動的タスク生成手法を提案する。
我々は,構造化グラフ表現を用いてタスクを定義し,具体的エージェント(TEA)のための2段階間相互作用進化タスク生成システムを構築した。
インタラクションの段階では、エージェントは環境と積極的に対話し、連続的なタスク生成を可能にするタスク実行と生成の間のループを作成します。
進化段階において、タスクグラフモデリングにより、既存のタスクを再結合して再利用し、外部データなしで新しいタスクを生成することができる。
10シーンにわたる実験では、TAAは2サイクルで87,876のタスクを自動生成し、人間による検証によって身体的に合理的であることが確認され、毎日の認知能力に欠かせないことが示されている。
現状のタスクで人間に対してSOTAモデルをベンチマークすると、公開ベンチマークが優れているにもかかわらず、基本的な知覚タスクでは驚くほどパフォーマンスが悪く、3Dインタラクションの認識が不十分で、推論においてタスクタイプに対して高い感度を示すことが分かる。
これらの汚濁は、現実世界の人間環境にエージェントを配置する前に、その場での評価の必要性を浮き彫りにする。
関連論文リスト
- What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.25281365374991]
本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。
従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。
私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
論文 参考訳(メタデータ) (2026-01-13T03:09:18Z) - CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - On the Evaluation of Generative Robotic Simulations [35.8253733339539]
生成シミュレーションに適した総合評価フレームワークを提案する。
単一タスクの品質では、生成されたタスクのリアリズムと生成されたトラジェクトリの完全性を評価する。
タスクレベルの一般化のために、複数の生成されたタスクで訓練されたポリシーの目に見えないタスクに対してゼロショットの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-10-10T17:49:25Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Egocentric Planning for Scalable Embodied Task Achievement [6.870094263016224]
エゴセントリックプランニング(Egocentric Planning)は、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向のPOMDPを組み合わせた革新的なアプローチである。
国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し,そのスケーラビリティを実証した。
本手法では, エージェントの行動の前提条件と影響について, 信頼性の高い認識と記号的記述の特定, 学習が必要である。
論文 参考訳(メタデータ) (2023-06-02T06:41:24Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。