論文の概要: Words into World: A Task-Adaptive Agent for Language-Guided Spatial Retrieval in AR
- arxiv url: http://arxiv.org/abs/2512.00294v1
- Date: Sat, 29 Nov 2025 03:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.154797
- Title: Words into World: A Task-Adaptive Agent for Language-Guided Spatial Retrieval in AR
- Title(参考訳): 世界への言葉:ARにおける言語誘導空間検索のためのタスク適応エージェント
- Authors: Lixing Guo, Tobias Höllerer,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)と接地型視覚モデルを統合するモジュール型拡張現実(AR)エージェントシステムを提案する。
適応タスクエージェントはMLLMと座標認識ツールを協調して,クエリの複雑さに対処する。
このシステムは、人間のループ内改良を支援しながら、情報密度領域に人間の注意を誘導する。
- 参考スコア(独自算出の注目度): 8.295391485284298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional augmented reality (AR) systems predominantly rely on fixed class detectors or fiducial markers, limiting their ability to interpret complex, open-vocabulary natural language queries. We present a modular AR agent system that integrates multimodal large language models (MLLMs) with grounded vision models to enable relational reasoning in space and language-conditioned spatial retrieval in physical environments. Our adaptive task agent coordinates MLLMs and coordinate-aware perception tools to address varying query complexities, ranging from simple object identification to multi-object relational reasoning, while returning meter-accurate 3D anchors. It constructs dynamic AR scene graphs encoding nine typed relations (spatial, structural-semantic, causal-functional), enabling MLLMs to understand not just what objects exist, but how they relate and interact in 3D space. Through task-adaptive region-of-interest highlighting and contextual spatial retrieval, the system guides human attention to information-dense areas while supporting human-in-the-loop refinement. The agent dynamically invokes coordinate-aware tools for complex queries-selection, measurement, comparison, and actuation-grounding language understanding in physical operations. The modular architecture supports plug-and-use vision-language models without retraining, establishing AR agents as intermediaries that augment MLLMs with real-world spatial intelligence for interactive scene understanding. We also introduce GroundedAR-Bench, an evaluation framework for language-driven real world localization and relation grounding across diverse environments.
- Abstract(参考訳): 従来の拡張現実(AR)システムは主に固定クラス検出器やフィデューシャルマーカーに依存しており、複雑なオープン語彙の自然言語クエリを解釈する能力を制限する。
本稿では,マルチモーダル大言語モデル(MLLM)と接地型視覚モデルを統合するモジュールARエージェントシステムを提案する。
適応的タスクエージェントはMLLMと座標認識ツールをコーディネートし、単純なオブジェクト識別から多目的関係推論まで様々なクエリ複雑さに対処し、メーター精度の3Dアンカーを返却する。
9つの型付き関係(空間的、構造的セマンティック、因果関数)をコードする動的なARシーングラフを構築し、MLLMはどのオブジェクトが存在するかだけでなく、3D空間内でどのように関連し、相互作用するかを理解することができる。
タスク適応型領域のハイライトとコンテキスト空間検索により,人間の注意を情報密度領域に誘導し,ループ内改良を支援する。
エージェントは、複雑なクエリの選択、測定、比較、および物理操作におけるアクティベーショングラウンド言語理解のための座標認識ツールを動的に呼び出す。
モジュールアーキテクチャは、プラグアンドユース視覚言語モデルをサポートし、インタラクティブなシーン理解のためにMLLMを現実世界の空間知能で強化する仲介者としてARエージェントを確立する。
また,多様な環境にまたがる言語による実世界のローカライゼーションと関係性評価フレームワークであるGroundedAR-Benchを紹介した。
関連論文リスト
- A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Spatial Reasoner: A 3D Inference Pipeline for XR Applications [0.0]
本稿では,記号的述語と関係性で幾何学的事実をブリッジする空間的推論フレームワークを提案する。
その基礎は、空間的述語集合によって強化された、向き付けられた3D境界ボックス表現に依存している。
導出した述語は空間知識グラフを形成し、パイプラインベースの推論モデルと組み合わせることで、空間クエリと動的ルール評価を可能にする。
論文 参考訳(メタデータ) (2025-04-25T14:27:27Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。