論文の概要: LogicEnvGen: Task-Logic Driven Generation of Diverse Simulated Environments for Embodied AI
- arxiv url: http://arxiv.org/abs/2601.13556v1
- Date: Tue, 20 Jan 2026 03:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.857
- Title: LogicEnvGen: Task-Logic Driven Generation of Diverse Simulated Environments for Embodied AI
- Title(参考訳): LogicEnvGen: エンボダイドAIのためのタスクロジック駆動型多言語シミュレーション環境の生成
- Authors: Jianan Wang, Siyang Zhang, Bin Li, Juan Chen, Jingtao Qi, Zhuo Zhang, Chen Qian,
- Abstract要約: エージェントのテストケースとして論理的に多様なシミュレーション環境を生成するためにLogicEnvGenを提案する。
潜在的なタスク状況を表すそれぞれの論理軌道に対して、LogicEnvGenは具体的な環境をインスタンス化する。
環境評価のための4つの定量的指標からなる新しいベンチマークであるLogicEnvEvalを紹介する。
- 参考スコア(独自算出の注目度): 25.16624885426354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulated environments play an essential role in embodied AI, functionally analogous to test cases in software engineering. However, existing environment generation methods often emphasize visual realism (e.g., object diversity and layout coherence), overlooking a crucial aspect: logical diversity from the testing perspective. This limits the comprehensive evaluation of agent adaptability and planning robustness in distinct simulated environments. To bridge this gap, we propose LogicEnvGen, a novel method driven by Large Language Models (LLMs) that adopts a top-down paradigm to generate logically diverse simulated environments as test cases for agents. Given an agent task, LogicEnvGen first analyzes its execution logic to construct decision-tree-structured behavior plans and then synthesizes a set of logical trajectories. Subsequently, it adopts a heuristic algorithm to refine the trajectory set, reducing redundant simulation. For each logical trajectory, which represents a potential task situation, LogicEnvGen correspondingly instantiates a concrete environment. Notably, it employs constraint solving for physical plausibility. Furthermore, we introduce LogicEnvEval, a novel benchmark comprising four quantitative metrics for environment evaluation. Experimental results verify the lack of logical diversity in baselines and demonstrate that LogicEnvGen achieves 1.04-2.61x greater diversity, significantly improving the performance in revealing agent faults by 4.00%-68.00%.
- Abstract(参考訳): シミュレーションされた環境は、ソフトウェア工学におけるテストケースと機能的に類似した、具体化されたAIにおいて重要な役割を果たす。
しかし、既存の環境生成手法は視覚的リアリズム(例えば、オブジェクトの多様性とレイアウトのコヒーレンス)を強調し、テストの観点からの論理的多様性という重要な側面を見越す。
これにより、異なるシミュレーション環境におけるエージェント適応性とプランニングロバスト性に関する包括的な評価が制限される。
このギャップを埋めるために、我々はLogicEnvGenを提案する。これはLarge Language Models (LLMs)によって駆動される新しい手法で、トップダウンパラダイムを採用し、エージェントのテストケースとして論理的に多様なシミュレーション環境を生成する。
エージェントタスクが与えられた後、LogicEnvGenはまず実行ロジックを分析して、決定ツリー構造化された振る舞い計画を構築し、その後、一連の論理軌道を合成する。
その後、軌跡集合を洗練させるためにヒューリスティックなアルゴリズムを採用し、冗長なシミュレーションを減らした。
潜在的なタスク状況を表すそれぞれの論理軌道に対して、LogicEnvGenは具体的な環境をインスタンス化する。
特に、物理的な可視性に対する制約解決が採用されている。
さらに,環境評価のための4つの定量的指標からなる新しいベンチマークであるLogicEnvEvalを紹介する。
実験の結果、ベースラインにおける論理的多様性の欠如を検証し、LogicEnvGenが1.04-2.61倍の多様性を達成し、エージェント欠陥を明らかにする際の性能を4.00%-68.00%改善した。
関連論文リスト
- AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。
これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。
本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-28T09:43:11Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models [58.456656119178064]
VLM(Vision-Language Models)は、マルチモーダルインテリジェンスの基礎として登場した。
しかし、その論理的理解能力は依然として明らかに過小評価されている。
LogicBenchは9つの論理カテゴリと4つの多様なシナリオにまたがる5万以上の視覚言語ペアを備えたベンチマークである。
VLMの論理感度を高めるためのトレーニングフレームワークであるLogicCLIPを提案する。
論文 参考訳(メタデータ) (2025-08-15T08:40:13Z) - Logic Mining from Process Logs: Towards Automated Specification and Verification [0.0]
本稿では、ワークフローを介して発見されたプロセスモデルから論理的仕様を生成するアプローチを提案する。
本研究では、品質データ、特にノイズが生成された仕様の構造とテスト容易性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-06-10T09:44:19Z) - a1: Steep Test-time Scaling Law via Environment Augmented Generation [45.19240207975418]
Environment Augmented Generation (EAG) は、大規模言語モデルの推論をリアルタイムな環境フィードバックによって強化するフレームワークである。
EAGは、実行フィードバックと分岐探索の緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。
A1-32Bモデルは、すべてのベンチマークで類似サイズのモデル間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-20T12:55:59Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Relational-Grid-World: A Novel Relational Reasoning Environment and An
Agent Model for Relational Information Extraction [0.0]
強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。
統計的手法に基づくRLアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。
環境オブジェクトの明示的なリレーショナル表現をサポートするモデルフリーなRLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-12T11:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。