論文の概要: Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding
- arxiv url: http://arxiv.org/abs/2303.04077v1
- Date: Tue, 7 Mar 2023 17:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:27:16.345480
- Title: Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding
- Title(参考訳): meta-explore:シーンオブジェクトスペクトラムグラウンドを用いた探索的階層的視覚・言語ナビゲーション
- Authors: Minyoung Hwang, Jaeyeon Jeong, Minsoo Kim, Yoonseon Oh, Songhwai Oh
- Abstract要約: 本稿では,最近の行動の誤りを正すために,利用ポリシーをデプロイする階層的なナビゲーション手法を提案する。
本研究では,エージェントをローカルな目標に向かって移動させるエクスプロイトポリシーが,エージェントを以前訪問した状態に移動させる手法よりも優れていることを示す。
本稿では,検出対象のカテゴリワイド2次元フーリエ変換を行う,シーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
- 参考スコア(独自算出の注目度): 16.784045122994506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The main challenge in vision-and-language navigation (VLN) is how to
understand natural-language instructions in an unseen environment. The main
limitation of conventional VLN algorithms is that if an action is mistaken, the
agent fails to follow the instructions or explores unnecessary regions, leading
the agent to an irrecoverable path. To tackle this problem, we propose
Meta-Explore, a hierarchical navigation method deploying an exploitation policy
to correct misled recent actions. We show that an exploitation policy, which
moves the agent toward a well-chosen local goal among unvisited but observable
states, outperforms a method which moves the agent to a previously visited
state. We also highlight the demand for imagining regretful explorations with
semantically meaningful clues. The key to our approach is understanding the
object placements around the agent in spectral-domain. Specifically, we present
a novel visual representation, called scene object spectrum (SOS), which
performs category-wise 2D Fourier transform of detected objects. Combining
exploitation policy and SOS features, the agent can correct its path by
choosing a promising local goal. We evaluate our method in three VLN
benchmarks: R2R, SOON, and REVERIE. Meta-Explore outperforms other baselines
and shows significant generalization performance. In addition, local goal
search using the proposed spectral-domain SOS features significantly improves
the success rate by 17.1% and SPL by 20.6% for the SOON benchmark.
- Abstract(参考訳): 視覚・言語ナビゲーション(VLN)の主な課題は、目に見えない環境で自然言語の指示を理解する方法である。
従来のVLNアルゴリズムの主な制限は、アクションが間違っていれば、エージェントは指示に従うことができず、不要な領域を探索し、エージェントを発見不可能な経路へと導くことである。
そこで本研究では,最近の誤動作の修正に利用ポリシーを展開する階層的ナビゲーション手法であるmeta-exploreを提案する。
本研究では,未観察状態と観測可能な状態の間でエージェントをローカルな目標に向かって移動させる利用政策が,エージェントを以前訪問した状態に移動させる方法よりも優れていることを示す。
我々はまた、意味的に有意義な手がかりで後悔的な探究を想像する要求についても強調する。
我々のアプローチの鍵は、スペクトル領域におけるエージェント周辺のオブジェクト配置を理解することである。
具体的には、検出対象のカテゴリワイド2次元フーリエ変換を行うシーンオブジェクトスペクトル(SOS)と呼ばれる新しい視覚表現を提案する。
搾取方針とsosの特徴を組み合わせることで、エージェントは有望なローカル目標を選択することでその経路を修正できる。
提案手法を3つのVLNベンチマーク(R2R, SOON, REVERIE)で評価した。
Meta-Exploreは他のベースラインよりも優れており、大きな一般化性能を示している。
さらに,提案するスペクトル領域sos特徴を用いた局所目標探索は,成功率を17.1%,splを20.6%向上させた。
関連論文リスト
- GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのヴィジュアル・アンド・ランゲージ・ナビゲーション (VLN) アルゴリズムは、視覚的常識の欠如と推論能力の不足により、意思決定ミスを起こす傾向がある。
本稿では,この問題に対処する階層型空間近接推論(HSPR)モデルを提案する。
提案手法の有効性を検証するために,REVERIE, SOON, R2R, R4Rなどの公開データセットの実験を行った。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - Mind the Gap: Improving Success Rate of Vision-and-Language Navigation
by Revisiting Oracle Success Routes [25.944819618283613]
Vision-and-Language Navigation (VLN) は、指定された命令に従うことで、ターゲットの場所へナビゲートすることを目的としている。
VLNの長年無視されてきた問題に対処する最初の試みは、成功率(SR)とOracle成功率(OSR)のギャップを狭めることです。
論文 参考訳(メタデータ) (2023-08-07T01:43:25Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal
Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。
RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。
SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-14T06:15:14Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Take the Scenic Route: Improving Generalization in Vision-and-Language
Navigation [44.019674347733506]
一般的なRoom-to-Room (R2R) VLNベンチマークを調査し、重要なことは、合成するデータの量だけでなく、どのように処理するかを知る。
R2Rベンチマークと既存の拡張手法の両方で使用される最短経路サンプリングは、エージェントのアクション空間におけるバイアスを符号化する。
次に、これらの行動先行は、既存の作品の貧弱な一般化に対する一つの説明を提供することを示す。
論文 参考訳(メタデータ) (2020-03-31T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。