論文の概要: CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and
Exploration
- arxiv url: http://arxiv.org/abs/2203.10421v1
- Date: Sun, 20 Mar 2022 00:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:13:20.023895
- Title: CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and
Exploration
- Title(参考訳): CLIP on Wheels: オブジェクトのローカライゼーションと探索としてのゼロショットオブジェクトナビゲーション
- Authors: Samir Yitzhak Gadre, Mitchell Wortsman, Gabriel Ilharco, Ludwig
Schmidt, Shuran Song
- Abstract要約: 本稿では、ゼロショットビジョンモデルの成功を、オブジェクトナビゲーションの一般的な具体的AIタスクに翻訳する。
タスクのためのCLIP on Wheels(CoW)ベースラインを設計し、HabitatとRoboTHORのシミュレータで各ゼロショットモデルを評価する。
私たちは、CLIPベースのオブジェクトローカライゼーションと古典的な探索、追加のトレーニングのない単純なCoWが、データセットの分散シフトの成功、効率、堅牢性という点で、学習可能なアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 31.18818639097139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Households across the world contain arbitrary objects: from mate gourds and
coffee mugs to sitars and guitars. Considering this diversity, robot perception
must handle a large variety of semantic objects without additional fine-tuning
to be broadly applicable in homes. Recently, zero-shot models have demonstrated
impressive performance in image classification of arbitrary objects (i.e.,
classifying images at inference with categories not explicitly seen during
training). In this paper, we translate the success of zero-shot vision models
(e.g., CLIP) to the popular embodied AI task of object navigation. In our
setting, an agent must find an arbitrary goal object, specified via text, in
unseen environments coming from different datasets. Our key insight is to
modularize the task into zero-shot object localization and exploration.
Employing this philosophy, we design CLIP on Wheels (CoW) baselines for the
task and evaluate each zero-shot model in both Habitat and RoboTHOR simulators.
We find that a straightforward CoW, with CLIP-based object localization plus
classical exploration, and no additional training, often outperforms learnable
approaches in terms of success, efficiency, and robustness to dataset
distribution shift. This CoW achieves 6.3% SPL in Habitat and 10.0% SPL in
RoboTHOR, when tested zero-shot on all categories. On a subset of four RoboTHOR
categories considered in prior work, the same CoW shows a 16.1 percentage point
improvement in Success over the learnable state-of-the-art baseline.
- Abstract(参考訳): 世界中の家庭には、メイトグルドやコーヒーマグカップからシタールやギターまで、任意のオブジェクトが含まれています。
この多様性を考慮すると、ロボットの知覚は、家庭に広く適用するために追加の微調整をすることなく、様々な意味オブジェクトを扱う必要がある。
近年、ゼロショットモデルは任意のオブジェクトのイメージ分類において印象的な性能を示している(例えば、トレーニング中に明示的に見えないカテゴリで推論された画像の分類)。
本稿では、ゼロショットビジョンモデル(例えばCLIP)の成功を、オブジェクトナビゲーションの一般的な具体的AIタスクに翻訳する。
私たちの設定では、エージェントは、異なるデータセットから来る見えない環境で、テキストで指定された任意のゴールオブジェクトを見つけなければなりません。
私たちの重要な洞察は、タスクをゼロショットオブジェクトのローカライゼーションと探索にモジュール化することです。
この哲学を応用して、タスクのためのCLIP on Wheels(CoW)ベースラインを設計し、HabitatとRoboTHORシミュレータで各ゼロショットモデルを評価する。
私たちは、CLIPベースのオブジェクトローカライゼーションと古典的な探索、追加のトレーニングのない単純なCoWが、データセットの分散シフトの成功、効率、堅牢性という点で、学習可能なアプローチよりも優れています。
このCoWは、すべてのカテゴリでゼロショットをテストすると、Habitatで6.3%のSPL、RoboTHORで10.0%のSPLを達成する。
先行研究で考慮された4つのロボホールカテゴリのサブセットにおいて、同じ牛は学習可能な最先端のベースラインよりも16.1ポイント向上している。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation [41.34703238334362]
LOC-ZSONは、複雑なシーンにおけるオブジェクトナビゲーションタスクのための、言語駆動のオブジェクト中心の画像表現である。
視覚言語モデル(VLM)の微調整におけるオブジェクト中心の画像表現とそれに対応する損失を提案する。
提案手法をAstroロボットに実装し,実環境とシミュレーション環境の両方にデプロイし,ゼロショットオブジェクトナビゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-08T18:45:37Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Exploring Transformers for Open-world Instance Segmentation [87.21723085867]
我々はTransformerをオープンワールドのインスタンスセグメンテーションやSWORDに活用する。
本研究では,オブジェクトと背景間の表現を拡大する新しいコントラスト学習フレームワークを提案する。
我々のモデルは、様々なオープンワールドのクロスカテゴリやクロスデータセットの一般化において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-08T12:12:30Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation [17.443411731092567]
野生でVLN(Vision-and-Language Navigation)を実行する身体エージェントは、この多様性を処理できなければならない。
私たちは、CLIPのようなVision-Languageモデルでもゼロショット言語グラウンドが可能かどうか尋ねる。
論文 参考訳(メタデータ) (2022-11-30T00:38:54Z) - Zero-shot object goal visual navigation [15.149900666249096]
実際の家庭では、ロボットが扱うべき多くのオブジェクトクラスが存在するかもしれない。
ゼロショット学習とオブジェクト目標ビジュアルナビゲーションを組み合わせたゼロショットオブジェクトナビゲーションタスクを提案する。
我々のモデルは、目に見えないクラスと見えないクラスの両方でベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-06-15T09:53:43Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。