論文の概要: FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
- arxiv url: http://arxiv.org/abs/2511.13524v1
- Date: Mon, 17 Nov 2025 15:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.344809
- Title: FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
- Title(参考訳): FreeAskWorld:人間中心の体操AIのためのインタラクティブでクローズドなループシミュレータ
- Authors: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong,
- Abstract要約: FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。
我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。
再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
- 参考スコア(独自算出の注目度): 24.545163508739943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
- Abstract(参考訳): 人工知能研究のコアフロンティアとして具現化されるにつれ、シミュレーションプラットフォームは、複雑な人間中心の社会的行動を捉えるために、低レベルの物理的相互作用を超えて進化する必要がある。
我々は,大規模言語モデル(LLM)を統合した対話型シミュレーションフレームワークFreeAskWorldを紹介した。
我々のフレームワークは、スケーラブルで現実的なヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含む。このフレームワークを検証するために、従来のビジョン・アンド・ランゲージ・ナビゲーション(VLN)タスクを、エージェントが積極的にナビゲーションガイダンスを探索し解釈できる、インタラクション強化されたディレクティブ・インクイリ(Direction Inquiry)設定に拡張する。
我々は,再構成環境,6つの多様なタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットFreeAskWorldを公開し,公開している。
オープンループとクローズループの両方の設定で、VLNモデルと人間の参加者をベンチマークします。
実験結果から,FreeAskWorldで微調整されたモデルは,従来のモデルよりも優れ,セマンティック理解とインタラクション能力の向上を実現していることがわかった。
これらの知見は、高度な高レベル計画とより自然主義的な人間とエージェントの相互作用に向けて、エンボディドAIシステムを前進させるための社会的基盤のシミュレーションフレームワークの有効性を裏付けるものである。
重要なことは、インタラクション自体が追加の情報モダリティとして機能する、ということです。
関連論文リスト
- TongSIM: A General Platform for Simulating Intelligent Machines [59.27575233453533]
エボディード・インテリジェンス(Embodied Intelligence)は、現実的なシミュレートされた環境における訓練エージェントに焦点を当てる。
TongSIMは、エンボディエージェントのトレーニングと評価のための高忠実で汎用的なプラットフォームである。
論文 参考訳(メタデータ) (2025-12-23T10:00:43Z) - Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts [59.78384600454231]
We present Uni-Inter, a unified framework for human motion generation that support a wide range of interaction scenarios。
Uni-Interは、異種インタラクティブエンティティを共有空間にエンコードするボリューム表現であるUnified Interactive Volume (UIV)を導入している。
論文 参考訳(メタデータ) (2025-11-17T06:32:38Z) - Gen-C: Populating Virtual Worlds with Generative Crowds [2.1716667622896195]
本稿では,エージェントエージェントとエージェント環境の相互作用をキャプチャするクラウドシナリオを生成する生成フレームワークであるGenerative Crowds (Gen-C)を紹介する。
Gen-Cはデュアル変分グラフオートエンコーダ(VGAE)アーキテクチャを採用しており、接続パターンと、テキスト信号と構造信号で条件付けられたノードの特徴を共同で学習する。
我々は、大学キャンパスや駅など多様な行動のシナリオにおけるGen-Cの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-02T17:33:53Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents [20.460482488872145]
本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。
本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。
定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-07-12T00:07:43Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。