論文の概要: Image-Goal Navigation Using Refined Feature Guidance and Scene Graph Enhancement
- arxiv url: http://arxiv.org/abs/2503.10986v1
- Date: Fri, 14 Mar 2025 01:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:26.876815
- Title: Image-Goal Navigation Using Refined Feature Guidance and Scene Graph Enhancement
- Title(参考訳): 修正特徴ガイダンスとシーングラフ強調を用いた画像案内ナビゲーション
- Authors: Zhicheng Feng, Xieyuanli Chen, Chenghao Shi, Lun Luo, Zhichao Chen, Yun-Hui Liu, Huimin Lu,
- Abstract要約: 本稿では, RFSG という新しい画像ゴールナビゲーション手法を提案する。
私たちの焦点は、限られた画像データ内の目標、観測、環境の間のきめ細かいつながりを活用することにあります。
本研究では,ネットワークが多次元特徴の重要性を学習し,目標と観測特徴を融合させる空間チャネルアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 28.716326030924474
- License:
- Abstract: In this paper, we introduce a novel image-goal navigation approach, named RFSG. Our focus lies in leveraging the fine-grained connections between goals, observations, and the environment within limited image data, all the while keeping the navigation architecture simple and lightweight. To this end, we propose the spatial-channel attention mechanism, enabling the network to learn the importance of multi-dimensional features to fuse the goal and observation features. In addition, a selfdistillation mechanism is incorporated to further enhance the feature representation capabilities. Given that the navigation task needs surrounding environmental information for more efficient navigation, we propose an image scene graph to establish feature associations at both the image and object levels, effectively encoding the surrounding scene information. Crossscene performance validation was conducted on the Gibson and HM3D datasets, and the proposed method achieved stateof-the-art results among mainstream methods, with a speed of up to 53.5 frames per second on an RTX3080. This contributes to the realization of end-to-end image-goal navigation in realworld scenarios. The implementation and model of our method have been released at: https://github.com/nubot-nudt/RFSG.
- Abstract(参考訳): 本稿では, RFSG という新しい画像ゴールナビゲーション手法を提案する。
私たちの焦点は、ナビゲーションアーキテクチャをシンプルかつ軽量にしながら、目標、観測、環境間のきめ細かい接続を、限られた画像データ内で活用することにあります。
そこで本稿では,ネットワークが多次元特徴の重要性を学習し,目標と観測特徴を融合させる空間チャネルアテンション機構を提案する。
さらに、特徴表現能力を一層高めるために、自己蒸留機構が組み込まれている。
ナビゲーションタスクは、より効率的なナビゲーションのために環境情報を取り巻く必要があることを考慮し、画像レベルとオブジェクトレベルの特徴関連性を確立するための画像シーングラフを提案し、周囲のシーン情報を効果的にエンコードする。
Gibson と HM3D のデータセットを用いてクロスステージ性能検証を行い,RTX3080 で最大 53.5 フレーム/秒の高速化を実現した。
これは、現実世界のシナリオにおけるエンドツーエンドの画像-ゴールナビゲーションの実現に寄与する。
提案手法の実装とモデルは, https://github.com/nubot-nudt/RFSGで公開されている。
関連論文リスト
- Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation [54.25416624924669]
画像ゴールナビゲーションのための細粒度ゴールプロンプト法(FGPrompt)を提案する。
FGPromptはゴール画像の詳細な情報を保存し、観測エンコーダにゴール関連領域に注意を払うよう誘導する。
提案手法は3つのベンチマークデータセットに対して大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-10-11T13:19:29Z) - On the Generation of a Synthetic Event-Based Vision Dataset for
Navigation and Landing [69.34740063574921]
本稿では,最適な着陸軌道からイベントベースの視覚データセットを生成する手法を提案する。
我々は,惑星と小惑星の自然シーン生成ユーティリティを用いて,月面のフォトリアリスティックな画像のシーケンスを構築した。
パイプラインは500トラジェクトリのデータセットを構築することで,表面特徴の現実的なイベントベース表現を生成することができることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:14:20Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Deep Learning for Robust Motion Segmentation with Non-Static Cameras [0.0]
本論文では,MOSNET と呼ばれる非静的なカメラで撮影するモーションセグメンテーションのための新たな DCNN ベースのアプローチを提案する。
他のアプローチは空間的または時間的文脈に焦点を当てているが、提案手法は3d畳み込みをビデオフレームの時間的特徴を分解する重要な技術として用いる。
このネットワークは、シーン中に画像コンテンツが大幅に変化する静電カメラで撮影されたシーンでうまく機能します。
論文 参考訳(メタデータ) (2021-02-22T11:58:41Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。