論文の概要: Zero-shot object goal visual navigation
- arxiv url: http://arxiv.org/abs/2206.07423v1
- Date: Wed, 15 Jun 2022 09:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 01:43:52.216201
- Title: Zero-shot object goal visual navigation
- Title(参考訳): zero-shot object goal visual navigation
- Authors: Qianfan Zhao, Lu Zhang, Bin He, Hong Qiao, and Zhiyong Liu
- Abstract要約: 実際の家庭では、ロボットが扱うべき多くのオブジェクトクラスが存在するかもしれない。
ゼロショット学習とオブジェクト目標ビジュアルナビゲーションを組み合わせたゼロショットオブジェクトナビゲーションタスクを提案する。
我々のモデルは、目に見えないクラスと見えないクラスの両方でベースラインモデルより優れています。
- 参考スコア(独自算出の注目度): 15.149900666249096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object goal visual navigation is a challenging task that aims to guide a
robot to find the target object only based on its visual observation, and the
target is limited to the classes specified in the training stage. However, in
real households, there may exist numerous object classes that the robot needs
to deal with, and it is hard for all of these classes to be contained in the
training stage. To address this challenge, we propose a zero-shot object
navigation task by combining zero-shot learning with object goal visual
navigation, which aims at guiding robots to find objects belonging to novel
classes without any training samples. This task gives rise to the need to
generalize the learned policy to novel classes, which is a less addressed issue
of object navigation using deep reinforcement learning. To address this issue,
we utilize "class-unrelated" data as input to alleviate the overfitting of the
classes specified in the training stage. The class-unrelated input consists of
detection results and cosine similarity of word embeddings, and does not
contain any class-related visual features or knowledge graphs. Extensive
experiments on the AI2-THOR platform show that our model outperforms the
baseline models in both seen and unseen classes, which proves that our model is
less class-sensitive and generalizes better. Our code is available at
https://github.com/pioneer-innovation/Zero-Shot-Object-Navigation
- Abstract(参考訳): 対象目標視覚ナビゲーションは,視覚的観察に基づいて対象物を見つけるためのロボットの誘導を目的とした課題であり,目標が訓練段階に指定されたクラスに限定されている。
しかし、実際の家庭では、ロボットが扱わなければならない多数のオブジェクトクラスが存在する可能性があり、これらのクラスをトレーニングステージに含めることは困難である。
この課題に対処するために,ゼロショット学習とオブジェクト目標視覚ナビゲーションを組み合わせたゼロショットオブジェクトナビゲーションタスクを提案する。
この課題は、学習方針を新しいクラスに一般化する必要性を生じさせ、これは深層強化学習を用いたオブジェクトナビゲーションの課題である。
この問題に対処するために,我々は「クラス非関連」データを入力として活用し,トレーニング段階で指定されたクラスの過剰適合を緩和する。
クラス非関連入力は、単語埋め込みの検出結果とコサイン類似性から成り、クラス関連視覚特徴や知識グラフは含まない。
ai2-thorプラットフォームでの広範囲な実験により、我々のモデルが目に見えるクラスと見当たらないクラスの両方でベースラインモデルを上回ることが示され、このモデルがクラス感受性が低く、より一般化していることが証明された。
私たちのコードはhttps://github.com/pioneer-innovation/Zero-Shot-Object-Navigationで利用可能です。
関連論文リスト
- Language-Based Augmentation to Address Shortcut Learning in Object Goal
Navigation [0.0]
ObjectNavにおけるショートカット学習の理解を深めることを目指しています。
本研究では,SOTA(State-of-the-art)のObjectNavメソッドを,そうでない環境へ一般化する過程を観察する。
エージェントは、対象物の部屋の関連する壁の色を単に検索することで、対象物へのナビゲートを学習する。
論文 参考訳(メタデータ) (2024-02-07T18:44:27Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。
数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文 参考訳(メタデータ) (2022-01-28T21:52:05Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。