Fugu-MT 論文翻訳(概要): Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation

論文の概要: Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation

arxiv url: http://arxiv.org/abs/2302.06072v1
Date: Mon, 13 Feb 2023 03:08:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 16:53:35.735390
Title: Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation
Title（参考訳）: Demystifying Vision-Language Navigationのための行動的原子概念学習
Authors: Bingqian Lin, Yi Zhu, Xiaodan Liang, Liang Lin, Jianzhuang Liu
Abstract要約: 行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。 AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
参考スコア（独自算出の注目度）: 159.80758203501304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Navigation (VLN) is a challenging task which requires an agent to align complex visual observations to language instructions to reach the goal position. Most existing VLN agents directly learn to align the raw directional features and visual features trained using one-hot labels to linguistic instruction features. However, the big semantic gap among these multi-modal inputs makes the alignment difficult and therefore limits the navigation performance. In this paper, we propose Actional Atomic-Concept Learning (AACL), which maps visual observations to actional atomic concepts for facilitating the alignment. Specifically, an actional atomic concept is a natural language phrase containing an atomic action and an object, e.g., ``go up stairs''. These actional atomic concepts, which serve as the bridge between observations and instructions, can effectively mitigate the semantic gap and simplify the alignment. AACL contains three core components: 1) a concept mapping module to map the observations to the actional atomic concept representations through the VLN environment and the recently proposed Contrastive Language-Image Pretraining (CLIP) model, 2) a concept refining adapter to encourage more instruction-oriented object concept extraction by re-ranking the predicted object concepts by CLIP, and 3) an observation co-embedding module which utilizes concept representations to regularize the observation representations. Our AACL establishes new state-of-the-art results on both fine-grained (R2R) and high-level (REVERIE and R2R-Last) VLN benchmarks. Moreover, the visualization shows that AACL significantly improves the interpretability in action decision.
Abstract（参考訳）: VLN(Vision-Language Navigation)は、エージェントが複雑な視覚的観察を言語命令に合わせることで目標位置に到達するという課題である。既存のvlnエージェントのほとんどが直接学習し、一方のホットラベルを使って訓練された方向特徴と視覚的特徴を言語的指示特徴に合わせる。しかし、マルチモーダル入力間の大きな意味的ギャップによりアライメントが難しくなり、ナビゲーション性能が制限される。本稿では,行動的原子概念学習(AACL)を提案し,視覚的観察を行動的原子概念にマッピングしてアライメントを容易にする。具体的には、アクション・アトミックの概念は、自然言語のフレーズで、原子の作用とオブジェクト、例えば ' ‘go up stairs'' を含む。これらの行動的原子の概念は、観察と指示の間の橋渡しとなり、意味的ギャップを効果的に軽減し、アライメントを単純化することができる。 AACLは3つのコアコンポーネントを含んでいる。 1) VLN環境と最近提案されたContrastive Language- Image Pretraining (CLIP)モデルを通して, 観測結果を行動原子概念表現にマッピングする概念マッピングモジュール。 2)予測された対象概念をクリップで並べ替えることで、より命令指向な対象概念抽出を促す概念改良アダプタ 3) 概念表現を利用して観測表現を正則化する観測共包モジュール。我々のAACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立します。さらに、AACLは行動決定における解釈可能性を大幅に改善することを示す。

関連論文リスト

LLM-enhanced Action-aware Multi-modal Prompt Tuning for Image-Text Matching [25.883546163390957]
大規模言語モデル(LLM)が生成する行動関連外部知識を組み込むことにより,CLIPをきめ細かな行動レベル理解に役立てる。本稿では,行動認識に基づく視覚的特徴を集約し,識別的・行動的視覚的表現を確立するための知識を付加する適応的相互作用モジュールを提案する。
論文参考訳（メタデータ） (2025-06-30T03:49:08Z)
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文参考訳（メタデータ） (2025-06-20T17:59:59Z)
Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation [7.150985186031763]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従う環境をナビゲートする必要がある。既存の手法は、ナビゲーション中に視覚的な観察と指示の詳細を効果的に統合するのに苦労することが多い。 OIKGは2つのキーコンポーネントを通してこれらの制限に対処する新しいフレームワークである。
論文参考訳（メタデータ） (2025-03-14T02:05:16Z)
CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models [10.62320998365966]
視覚言語モデル(VLLM)は、本質的には画像レベルでの相互作用を認識・推論できるが、計算的に重く、インスタンスレベルのHOI検出には設計されていない。手動のアノテーションを必要とせずに,VLLMのイメージレベルの理解からインスタンスレベルのHOIを蒸留するクロスレベルHOI蒸留(CL-HOI)フレームワークを提案する。本手法は,視覚情報から言語情報への変換を行う文脈蒸留と,対話認知ネットワーク(ICN)が空間的,視覚的,文脈的関係を推論する相互作用蒸留の2段階を含む。
論文参考訳（メタデータ） (2024-10-21T05:51:51Z)
Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文参考訳（メタデータ） (2024-08-19T20:09:56Z)
A Dual Semantic-Aware Recurrent Global-Adaptive Network For Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文参考訳（メタデータ） (2023-05-05T15:06:08Z)
Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following [101.55727845195969]
本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。 ECLは完全に透明で、長期計画において段階的に解釈可能である。
論文参考訳（メタデータ） (2023-04-07T17:59:34Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文参考訳（メタデータ） (2022-03-10T03:30:12Z)
Contrastive Instruction-Trajectory Learning for Vision-Language Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-08T06:32:52Z)
Neighbor-view Enhanced Model for Vision and Language Navigation [78.90859474564787]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従うことによって、ターゲットの場所へナビゲートする必要がある。本研究では,隣接するビューから視覚的コンテキストを適応的に組み込むマルチモジュールNeighbor-View Enhanced Model (NvEM)を提案する。
論文参考訳（メタデータ） (2021-07-15T09:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。