論文の概要: Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2403.15691v2
- Date: Thu, 16 May 2024 07:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:45:17.138079
- Title: Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための時間空間オブジェクト関係モデリング
- Authors: Bowen Huang, Yanwei Zheng, Chuanlin Lan, Xinpeng Zhao, Yifei Zou, Dongxiao yu,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
- 参考スコア(独自算出の注目度): 11.372544701050044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) is a challenging task where an agent is required to navigate to a natural language described location via vision observations. The navigation abilities of the agent can be enhanced by the relations between objects, which are usually learned using internal objects or external datasets. The relationships between internal objects are modeled employing graph convolutional network (GCN) in traditional studies. However, GCN tends to be shallow, limiting its modeling ability. To address this issue, we utilize a cross attention mechanism to learn the connections between objects over a trajectory, which takes temporal continuity into account, termed as Temporal Object Relations (TOR). The external datasets have a gap with the navigation environment, leading to inaccurate modeling of relations. To avoid this problem, we construct object connections based on observations from all viewpoints in the navigational environment, which ensures complete spatial coverage and eliminates the gap, called Spatial Object Relations (SOR). Additionally, we observe that agents may repeatedly visit the same location during navigation, significantly hindering their performance. For resolving this matter, we introduce the Turning Back Penalty (TBP) loss function, which penalizes the agent's repetitive visiting behavior, substantially reducing the navigational distance. Experimental results on the REVERIE, SOON, and R2R datasets demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
内部オブジェクト間の関係は、従来の研究でグラフ畳み込みネットワーク(GCN)を用いてモデル化されている。
しかし、GCNは浅く、モデリング能力が制限される傾向がある。
この問題に対処するために、時間的連続性を考慮し、時間的対象関係(TOR)と呼ばれる、軌道上の物体間の接続を学習するクロスアテンション機構を利用する。
外部データセットはナビゲーション環境とギャップがあり、不正確な関係のモデリングにつながる。
この問題を回避するため,航法環境における全視点からの観測に基づいてオブジェクト接続を構築し,空間的対象関係(SOR)と呼ばれる空間的対象関係(SOR)を完全に保証し,ギャップを解消する。
さらに、エージェントがナビゲーション中に同じ場所を何度も訪れ、そのパフォーマンスを著しく損なう可能性があることも観察した。
この問題を解決するために,エージェントの反復的訪問行動にペナルティを課し,ナビゲーション距離を大幅に低減するTBP損失関数を導入する。
提案手法の有効性を示すために,REVERIE,SOON,R2Rデータセット実験を行った。
関連論文リスト
- Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation [35.13932194789583]
視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のために, エージェントは, 1) 学習中の世界のオブジェクトカテゴリの関係について, ある特定の知識を学習し, 2) 学習前のオブジェクトカテゴリ関係と現在目に見えない環境における移動軌跡に基づいて対象オブジェクトを探す必要がある。
対象のカテゴリ配置に関する知識を学習するためのカテゴリ関係グラフ(CRG)と,オブジェクトの長期的空間的依存関係を知覚するTSRアテンションアーキテクチャ(TSR)を提案する。
論文 参考訳(メタデータ) (2023-12-06T07:28:43Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Agent-Centric Relation Graph for Object Visual Navigation [25.097165101483284]
環境の関連性に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を提案する。
ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。
上記のグラフでは、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。
論文 参考訳(メタデータ) (2021-11-29T10:06:31Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Learning hierarchical relationships for object-goal navigation [7.074818959144171]
室内におけるナビゲーションのためのメモリ利用共同階層型物体学習(MJOLNIR)を提案する。
MJOLNIRはターゲット駆動ナビゲーションアルゴリズムであり、ターゲットオブジェクトと周囲に存在するより健全なコンテキストオブジェクトの間に固有の関係を考察する。
我々のモデルは、よく知られた過適合問題に悩まされることなく、他のアルゴリズムよりもはるかに早く収束することを学ぶ。
論文 参考訳(メタデータ) (2020-03-15T04:01:09Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。