論文の概要: Simple but Effective: CLIP Embeddings for Embodied AI
- arxiv url: http://arxiv.org/abs/2111.09888v1
- Date: Thu, 18 Nov 2021 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:49:39.531369
- Title: Simple but Effective: CLIP Embeddings for Embodied AI
- Title(参考訳): 単純だが効果的なCLIP埋め込み
- Authors: Apoorv Khandelwal, Luca Weihs, Roozbeh Mottaghi, Aniruddha Kembhavi
- Abstract要約: CLIP(Contrastive Language Image Pretraining)エンコーダは様々な視覚的タスクに有用であることが示されている。
タスク固有のアーキテクチャなしで、EmbCLIPという名前の驚くほどシンプルなベースラインを構築します。
改良されたベースラインは、さまざまなタスクやシミュレータで非常によく機能します。
- 参考スコア(独自算出の注目度): 38.02562593292301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive language image pretraining (CLIP) encoders have been shown to be
beneficial for a range of visual tasks from classification and detection to
captioning and image manipulation. We investigate the effectiveness of CLIP
visual backbones for embodied AI tasks. We build incredibly simple baselines,
named EmbCLIP, with no task specific architectures, inductive biases (such as
the use of semantic maps), auxiliary tasks during training, or depth maps --
yet we find that our improved baselines perform very well across a range of
tasks and simulators. EmbCLIP tops the RoboTHOR ObjectNav leaderboard by a huge
margin of 20 pts (Success Rate). It tops the iTHOR 1-Phase Rearrangement
leaderboard, beating the next best submission, which employs Active Neural
Mapping, and more than doubling the % Fixed Strict metric (0.08 to 0.17). It
also beats the winners of the 2021 Habitat ObjectNav Challenge, which employ
auxiliary tasks, depth maps, and human demonstrations, and those of the 2019
Habitat PointNav Challenge. We evaluate the ability of CLIP's visual
representations at capturing semantic information about input observations --
primitives that are useful for navigation-heavy embodied tasks -- and find that
CLIP's representations encode these primitives more effectively than
ImageNet-pretrained backbones. Finally, we extend one of our baselines,
producing an agent capable of zero-shot object navigation that can navigate to
objects that were not used as targets during training.
- Abstract(参考訳): コントラスト言語イメージプリトレーニング(clip)エンコーダは、分類や検出からキャプションや画像操作に至るまで、さまざまな視覚タスクに有効であることが示されている。
具体的AIタスクにおけるCLIP視覚バックボーンの有効性を検討する。
embclipと名付けられた信じられないくらいシンプルなベースラインを構築しており、タスク固有のアーキテクチャや(セマンティックマップの使用のような)帰納的バイアス、トレーニング中の補助タスク、奥行きマップといったものはありません。
EmbCLIPはRoboTHOR ObjectNavのリーダーボードを20pts(Success Rate)で上回っている。
iTHOR 1-Phase Rearrangementのリーダーボードを上回り、アクティブニューラルマッピングを採用し、%固定ストリットメトリック(0.08から0.17)の倍増以上の、次の最高の応募を上回ります。
また、2021年のhabitat objectnav challengeでは、補助的なタスク、深度マップ、人間によるデモンストレーション、そして2019年のhabitat pointnav challengeの勝者にも勝っている。
私たちは,CLIPの視覚的表現が入力観測のセマンティック情報をキャプチャする能力(ナビゲーションが重いエンボディされたタスクに有用なプリミティブ)を評価し,これらのプリミティブをImageNetが推奨するバックボーンよりも効率的にエンコードしていることを確認した。
最後に、ベースラインの1つを拡張し、ゼロショットオブジェクトナビゲーションが可能なエージェントを生成し、トレーニング中にターゲットとして使用されなかったオブジェクトにナビゲートする。
関連論文リスト
- CLIP with Quality Captions: A Strong Pretraining for Vision Tasks [16.208506912410147]
良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
論文 参考訳(メタデータ) (2024-05-14T19:06:24Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav [62.32806118504701]
我々は、ImageNavタスクとObjectNavタスクの両方で、最先端の結果を達成する単一のニューラルネットワークアーキテクチャを提案する。
このような汎用的な手法は、設計の単純さ、利用可能な計算での正のスケーリング、複数のタスクへの多用途適用の利点を提供する。
論文 参考訳(メタデータ) (2023-03-14T11:15:37Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。