論文の概要: Bird's-Eye-View Scene Graph for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2308.04758v2
- Date: Sat, 12 Aug 2023 08:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:22:36.954607
- Title: Bird's-Eye-View Scene Graph for Vision-Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのための鳥のEye-View Scene Graph
- Authors: Rui Liu, Xiaohan Wang, Wenguan Wang, Yi Yang
- Abstract要約: 視覚言語ナビゲーション(VLN)は、人間の指示に従って3D環境をナビゲートするエージェントである。
室内環境のシーンレイアウトと幾何学的手がかりを符号化するために,多段階のBEV表現を利用するBEVシーングラフ(BSG)を提案する。
BSGに基づいて、エージェントは、ローカルなBEVグリッドレベル決定スコアとグローバルなグラフレベル決定スコアを予測し、パノラマビューのサブビュー選択スコアと組み合わせる。
- 参考スコア(独自算出の注目度): 85.72725920024578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation (VLN), which entails an agent to navigate 3D
environments following human instructions, has shown great advances. However,
current agents are built upon panoramic observations, which hinders their
ability to perceive 3D scene geometry and easily leads to ambiguous selection
of panoramic view. To address these limitations, we present a BEV Scene Graph
(BSG), which leverages multi-step BEV representations to encode scene layouts
and geometric cues of indoor environment under the supervision of 3D detection.
During navigation, BSG builds a local BEV representation at each step and
maintains a BEV-based global scene map, which stores and organizes all the
online collected local BEV representations according to their topological
relations. Based on BSG, the agent predicts a local BEV grid-level decision
score and a global graph-level decision score, combined with a sub-view
selection score on panoramic views, for more accurate action prediction. Our
approach significantly outperforms state-of-the-art methods on REVERIE, R2R,
and R4R, showing the potential of BEV perception in VLN.
- Abstract(参考訳): 人間の指示に従って3D環境をナビゲートするエージェントを必要とする視覚言語ナビゲーション(VLN)は、大きな進歩を見せている。
しかし、現在のエージェントはパノラマ観測に基づいて構築されており、3Dシーンの形状を認識できないため、容易にパノラマビューの曖昧な選択につながる。
これらの制約に対処するために,多段階のbev表現を利用して3次元検出を監督するbevシーングラフ(bev scene graph, bsg)を提案する。
ナビゲーション中、BSGは各ステップでローカルなBEV表現を構築し、そのトポロジ的関係に従って収集されたすべてのローカルなBEV表現を保存および整理するBEVベースのグローバルなシーンマップを維持する。
BSGに基づいて、エージェントは、局所的なBEVグリッドレベル決定スコアとグローバルグラフレベル決定スコアと、パノラマビューのサブビュー選択スコアとを組み合わせて予測し、より正確なアクション予測を行う。
提案手法はREVERIE, R2R, R4Rの最先端手法よりも優れており, VLNにおけるBEV知覚の可能性を示している。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - Navigation Instruction Generation with BEV Perception and Large Language Models [60.455964599187205]
本稿では,Bird's Eye View(BEV)機能をMLLM(Multi-Modal Large Language Models)に組み込んだBEVインストラクタを提案する。
具体的には、BEVインストラクタは、BEVとパースペクティブ特徴を融合させることにより、3D環境の理解のためのパースペクティブBEVを構築する。
パースペクティブ-BEVプロンプトに基づいて、BEVインストラクタはさらにインスタンス誘導反復精製パイプラインを採用し、プログレッシブな方法で命令を改善する。
論文 参考訳(メタデータ) (2024-07-21T08:05:29Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。