論文の概要: CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2211.16649v1
- Date: Wed, 30 Nov 2022 00:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:17:50.076068
- Title: CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation
- Title(参考訳): CLIP-Nav: ゼロショットビジョンとランゲージナビゲーションにCLIPを使用する
- Authors: Vishnu Sashank Dorbala, Gunnar Sigurdsson, Robinson Piramuthu, Jesse
Thomason, Gaurav S. Sukhatme
- Abstract要約: 野生でVLN(Vision-and-Language Navigation)を実行する身体エージェントは、この多様性を処理できなければならない。
私たちは、CLIPのようなVision-Languageモデルでもゼロショット言語グラウンドが可能かどうか尋ねる。
- 参考スコア(独自算出の注目度): 17.443411731092567
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Household environments are visually diverse. Embodied agents performing
Vision-and-Language Navigation (VLN) in the wild must be able to handle this
diversity, while also following arbitrary language instructions. Recently,
Vision-Language models like CLIP have shown great performance on the task of
zero-shot object recognition. In this work, we ask if these models are also
capable of zero-shot language grounding. In particular, we utilize CLIP to
tackle the novel problem of zero-shot VLN using natural language referring
expressions that describe target objects, in contrast to past work that used
simple language templates describing object classes. We examine CLIP's
capability in making sequential navigational decisions without any
dataset-specific finetuning, and study how it influences the path that an agent
takes. Our results on the coarse-grained instruction following task of REVERIE
demonstrate the navigational capability of CLIP, surpassing the supervised
baseline in terms of both success rate (SR) and success weighted by path length
(SPL). More importantly, we quantitatively show that our CLIP-based zero-shot
approach generalizes better to show consistent performance across environments
when compared to SOTA, fully supervised learning approaches when evaluated via
Relative Change in Success (RCS).
- Abstract(参考訳): 家庭環境は視覚的に多様である。
野生でVLN(Vision-and-Language Navigation)を実行するエージェントは、任意の言語命令に従いながら、この多様性を処理できなければならない。
近年、CLIPのようなビジョンランゲージモデルは、ゼロショットオブジェクト認識のタスクにおいて優れたパフォーマンスを示している。
本研究では、これらのモデルがゼロショット言語グラウンドディングも可能かどうかを問う。
特に,CLIPを用いて対象オブジェクトを記述する自然言語参照式を用いたゼロショットVLNの新たな問題に対処する。
我々は,データセット固有の微調整を行わずに逐次的ナビゲーション決定を行うクリップの能力を調べ,エージェントが取る経路にどのように影響するかを検討する。
以上の結果から,CLIPの航法能力は,成功率 (SR) と経路長 (SPL) の重み付けによる成功率 (SPL) の両面で,教師付きベースラインを上回った。
さらに重要なことは、我々のCLIPベースのゼロショットアプローチが、SOTAと比較して環境間の一貫したパフォーマンスを示すのに優れていることを定量的に示すことである。
関連論文リスト
- Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。