論文の概要: FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
- arxiv url: http://arxiv.org/abs/2511.13524v1
- Date: Mon, 17 Nov 2025 15:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.344809
- Title: FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
- Title(参考訳): FreeAskWorld:人間中心の体操AIのためのインタラクティブでクローズドなループシミュレータ
- Authors: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong,
- Abstract要約: FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。
我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。
再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
- 参考スコア(独自算出の注目度): 24.545163508739943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
- Abstract(参考訳): 人工知能研究のコアフロンティアとして具現化されるにつれ、シミュレーションプラットフォームは、複雑な人間中心の社会的行動を捉えるために、低レベルの物理的相互作用を超えて進化する必要がある。
我々は,大規模言語モデル(LLM)を統合した対話型シミュレーションフレームワークFreeAskWorldを紹介した。
我々のフレームワークは、スケーラブルで現実的なヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含む。このフレームワークを検証するために、従来のビジョン・アンド・ランゲージ・ナビゲーション(VLN)タスクを、エージェントが積極的にナビゲーションガイダンスを探索し解釈できる、インタラクション強化されたディレクティブ・インクイリ(Direction Inquiry)設定に拡張する。
我々は,再構成環境,6つの多様なタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットFreeAskWorldを公開し,公開している。
オープンループとクローズループの両方の設定で、VLNモデルと人間の参加者をベンチマークします。
実験結果から,FreeAskWorldで微調整されたモデルは,従来のモデルよりも優れ,セマンティック理解とインタラクション能力の向上を実現していることがわかった。
これらの知見は、高度な高レベル計画とより自然主義的な人間とエージェントの相互作用に向けて、エンボディドAIシステムを前進させるための社会的基盤のシミュレーションフレームワークの有効性を裏付けるものである。
重要なことは、インタラクション自体が追加の情報モダリティとして機能する、ということです。
関連論文リスト
- Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts [59.78384600454231]
We present Uni-Inter, a unified framework for human motion generation that support a wide range of interaction scenarios。
Uni-Interは、異種インタラクティブエンティティを共有空間にエンコードするボリューム表現であるUnified Interactive Volume (UIV)を導入している。
論文 参考訳(メタデータ) (2025-11-17T06:32:38Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。