論文の概要: NavComposer: Composing Language Instructions for Navigation Trajectories through Action-Scene-Object Modularization
- arxiv url: http://arxiv.org/abs/2507.10894v1
- Date: Tue, 15 Jul 2025 01:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.94373
- Title: NavComposer: Composing Language Instructions for Navigation Trajectories through Action-Scene-Object Modularization
- Title(参考訳): NavComposer:Action-Scene-Object Modularizationによるナビゲーション軌道に対する言語命令の作成
- Authors: Zongtao He, Liuyi Wang, Lu Chen, Chengju Liu, Qijun Chen,
- Abstract要約: 高品質なナビゲーション命令を自動生成するフレームワークであるNavComposerを提案する。
NavComposerは、アクション、シーン、オブジェクトなどのセマンティックエンティティを明示的に分解し、それらを自然言語命令に再分解する。
データに依存しない方法で動作し、ドメイン固有のトレーニングなしで多様なナビゲーショントラジェクトリへの適応をサポートする。
NavInstrCriticは、専門家のアノテーションに大きく依存する従来のメトリクスの制限に対処する、命令品質の全体的な評価を提供する。
- 参考スコア(独自算出の注目度): 17.525269369227786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided navigation is a cornerstone of embodied AI, enabling agents to interpret language instructions and navigate complex environments. However, expert-provided instructions are limited in quantity, while synthesized annotations often lack quality, making them insufficient for large-scale research. To address this, we propose NavComposer, a novel framework for automatically generating high-quality navigation instructions. NavComposer explicitly decomposes semantic entities such as actions, scenes, and objects, and recomposes them into natural language instructions. Its modular architecture allows flexible integration of state-of-the-art techniques, while the explicit use of semantic entities enhances both the richness and accuracy of instructions. Moreover, it operates in a data-agnostic manner, supporting adaptation to diverse navigation trajectories without domain-specific training. Complementing NavComposer, we introduce NavInstrCritic, a comprehensive annotation-free evaluation system that assesses navigation instructions on three dimensions: contrastive matching, semantic consistency, and linguistic diversity. NavInstrCritic provides a holistic evaluation of instruction quality, addressing limitations of traditional metrics that rely heavily on expert annotations. By decoupling instruction generation and evaluation from specific navigation agents, our method enables more scalable and generalizable research. Extensive experiments provide direct and practical evidence for the effectiveness of our method.
- Abstract(参考訳): 言語誘導ナビゲーションは、エージェントが言語命令を解釈し、複雑な環境をナビゲートすることを可能にする、AIの具体化の基礎である。
しかし、専門家による指示は量的に限られているが、合成アノテーションは品質に欠けることが多く、大規模な研究には不十分である。
そこで我々は,高品質なナビゲーション命令を自動生成する新しいフレームワークであるNavComposerを提案する。
NavComposerは、アクション、シーン、オブジェクトなどのセマンティックエンティティを明示的に分解し、それらを自然言語命令に再分解する。
モジュラーアーキテクチャは最先端技術の統合を柔軟に実現し、セマンティック・エンティティの明示的な使用は命令の豊かさと正確さを両立させる。
さらに、データに依存しない方法で動作し、ドメイン固有のトレーニングなしで、多様なナビゲーショントラジェクトリへの適応をサポートする。
NavComposerを補完するNavInstrCriticは,3次元のナビゲーション命令(コントラッシブマッチング,セマンティック一貫性,言語多様性)を総合的に評価するアノテーションのない評価システムである。
NavInstrCriticは、専門家のアノテーションに大きく依存する従来のメトリクスの制限に対処する、命令品質の全体的な評価を提供する。
特定のナビゲーションエージェントから命令生成と評価を分離することにより、よりスケーラブルで一般化可能な研究を可能にする。
大規模な実験により,本手法の有効性の直接的および実践的証拠が得られた。
関連論文リスト
- LangNavBench: Evaluation of Natural Language Understanding in Semantic Navigation [18.951580080771432]
LangNavは、異なるレベルの詳細で記述されたオブジェクトを見つけるエージェントの能力をテストするために特別に作成された、オープンセットのデータセットである。
LangNavBenchを使えば、属性、空間的およびリレーショナルなキュー、およびカテゴリ階層の処理に関するモデルを体系的に比較することができます。
MLFMはクエリ可能な多層セマンティックマップを構築する方法である。
論文 参考訳(メタデータ) (2025-07-09T21:46:43Z) - NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation [66.89717229608358]
NAVCONは2つの一般的なデータセット(R2RとRxR)の上に構築された大規模な注釈付きビジョンランゲージナビゲーション(VLN)コーパスである。
論文 参考訳(メタデータ) (2024-12-17T15:48:25Z) - SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。