論文の概要: Conversational Orientation Reasoning: Egocentric-to-Allocentric Navigation with Multimodal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2509.18200v1
- Date: Sat, 20 Sep 2025 05:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.482906
- Title: Conversational Orientation Reasoning: Egocentric-to-Allocentric Navigation with Multimodal Chain-of-Thought
- Title(参考訳): Conversational Orientation Reasoning:Multimal Chain-of-Thoughtを用いたEgocentric-to-Allocentric Navigation
- Authors: Yu Ti Huang,
- Abstract要約: マルチモーダル・チェーン・オブ・シント(MCoT)フレームワークは、構造化された3段階の推論プロセスを通じて、ASRで書き起こされた音声とランドマーク座標を統合する。
MCoTはクリーンな書き起こしに対して100%の方向精度を達成し、ASR書き起こしでは98.1%を達成し、不定形および非構造的ベースラインを大幅に上回っている。
これらの知見は,MCoT空間推論が解釈可能かつ資源効率の高い航法への道のりであることを示す。
- 参考スコア(独自算出の注目度): 5.076419064097734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational agents must translate egocentric utterances (e.g., "on my right") into allocentric orientations (N/E/S/W). This challenge is particularly critical in indoor or complex facilities where GPS signals are weak and detailed maps are unavailable. While chain-of-thought (CoT) prompting has advanced reasoning in language and vision tasks, its application to multimodal spatial orientation remains underexplored. We introduce Conversational Orientation Reasoning (COR), a new benchmark designed for Traditional Chinese conversational navigation projected from real-world environments, addressing egocentric-to-allocentric reasoning in non-English and ASR-transcribed scenarios. We propose a multimodal chain-of-thought (MCoT) framework, which integrates ASR-transcribed speech with landmark coordinates through a structured three-step reasoning process: (1) extracting spatial relations, (2) mapping coordinates to absolute directions, and (3) inferring user orientation. A curriculum learning strategy progressively builds these capabilities on Taiwan-LLM-13B-v2.0-Chat, a mid-sized model representative of resource-constrained settings. Experiments show that MCoT achieves 100% orientation accuracy on clean transcripts and 98.1% with ASR transcripts, substantially outperforming unimodal and non-structured baselines. Moreover, MCoT demonstrates robustness under noisy conversational conditions, including ASR recognition errors and multilingual code-switching. The model also maintains high accuracy in cross-domain evaluation and resilience to linguistic variation, domain shift, and referential ambiguity. These findings highlight the potential of structured MCoT spatial reasoning as a path toward interpretable and resource-efficient embodied navigation.
- Abstract(参考訳): 会話エージェントは、エゴセントリックな発話(例えば、私の右)をアロセントリックな向き(N/E/S/W)に変換する必要がある。
この課題は、GPS信号が弱く詳細な地図が利用できない屋内や複雑な施設で特に重要である。
チェーン・オブ・シンクレット(CoT)は言語や視覚タスクにおいて先進的な推論を行うが、マルチモーダル空間配向への応用はいまだ検討されていない。
本研究では,会話指向推論(Conversational Orientation Reasoning, COR)について紹介する。
我々は,(1)空間関係の抽出,(2)絶対方向の座標のマッピング,(3)ユーザの向きの推測という3段階の構造化プロセスを通じて,ASRで書き起こされた音声をランドマーク座標と統合するマルチモーダル・チェーン・オブ・シント(MCoT)フレームワークを提案する。
台湾のLLM-13B-v2.0-Chatは,資源制約設定の中間モデルである。
実験の結果、MCoTはクリーンな書き起こしで100%の方向精度、ASR書き起こしでは98.1%を達成し、非モーダルベースラインや非構造ベースラインを大幅に上回っていることがわかった。
さらに、MCoTは、ASR認識エラーや多言語コードスイッチングなど、ノイズの多い会話条件下で堅牢性を示す。
このモデルは、言語的変化、ドメインシフト、参照あいまいさに対するクロスドメイン評価とレジリエンスの精度も維持する。
これらの知見は,MCoT空間推論が解釈可能かつ資源効率の高い航法への道のりであることを示す。
関連論文リスト
- New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR [30.00166986946003]
我々は、アライメントとマッチングを検出問題とみなすために、新たな洞察を得る。
目標は、高精度で意味のある対応を識別し、言語トークンの完全なカバレッジを確保することである。
分布ミスマッチと構造的非対称性を明示的に扱う不均衡な輸送ベースアライメントモデルを提案する。
論文 参考訳(メタデータ) (2025-09-06T05:58:52Z) - HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones [29.663691563826095]
自然言語誘導ドローン(NLGD)は、ターゲットマッチングやナビゲーションといったタスクに新しいパラダイムを提供する。
ドローンシナリオにおける広い視野と複雑な構成意味論は、視覚言語理解の課題を提起する。
階層的クロスグラニュラリティコントラストとマッチング学習フレームワークを2つのコンポーネントで提案する。
論文 参考訳(メタデータ) (2025-08-29T11:50:24Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [49.858348469657784]
本稿では,自然言語を用いたオブジェクト指向を参照フレームフリーで定義するセマンティック・オリエンテーションの概念を紹介する。
セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - Do Multimodal Language Models Really Understand Direction? A Benchmark for Compass Direction Reasoning [18.411086615860675]
マルチモーダル言語モデル(MLM)の方向性推論能力の評価を目的としたCompass Direction Reasoning (CDR)ベンチマーク
CDRには、空間(上、下、左、右)とコンパス(北、南、東、西)を画像化する3つのタイプが含まれている。
CDRデータによるトレーニングは、現実世界の物理的なルールを理解する必要があるため、限られた改善をもたらす。
コンパス方向推論の性能を大幅に向上させるミックスデータおよびCoT微調整法の影響について検討する。
論文 参考訳(メタデータ) (2024-12-21T12:09:13Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。