論文の概要: Language-Based Augmentation to Address Shortcut Learning in Object Goal
Navigation
- arxiv url: http://arxiv.org/abs/2402.05090v1
- Date: Wed, 7 Feb 2024 18:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:03:45.957123
- Title: Language-Based Augmentation to Address Shortcut Learning in Object Goal
Navigation
- Title(参考訳): オブジェクトゴールナビゲーションにおけるショートカット学習のための言語ベース拡張
- Authors: Dennis Hoftijzer and Gertjan Burghouts and Luuk Spreeuwers
- Abstract要約: ObjectNavにおけるショートカット学習の理解を深めることを目指しています。
本研究では,SOTA(State-of-the-art)のObjectNavメソッドを,そうでない環境へ一般化する過程を観察する。
エージェントは、対象物の部屋の関連する壁の色を単に検索することで、対象物へのナビゲートを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has shown great potential in enabling
robots to find certain objects (e.g., `find a fridge') in environments like
homes or schools. This task is known as Object-Goal Navigation (ObjectNav). DRL
methods are predominantly trained and evaluated using environment simulators.
Although DRL has shown impressive results, the simulators may be biased or
limited. This creates a risk of shortcut learning, i.e., learning a policy
tailored to specific visual details of training environments. We aim to deepen
our understanding of shortcut learning in ObjectNav, its implications and
propose a solution. We design an experiment for inserting a shortcut bias in
the appearance of training environments. As a proof-of-concept, we associate
room types to specific wall colors (e.g., bedrooms with green walls), and
observe poor generalization of a state-of-the-art (SOTA) ObjectNav method to
environments where this is not the case (e.g., bedrooms with blue walls). We
find that shortcut learning is the root cause: the agent learns to navigate to
target objects, by simply searching for the associated wall color of the target
object's room. To solve this, we propose Language-Based (L-B) augmentation. Our
key insight is that we can leverage the multimodal feature space of a
Vision-Language Model (VLM) to augment visual representations directly at the
feature-level, requiring no changes to the simulator, and only an addition of
one layer to the model. Where the SOTA ObjectNav method's success rate drops
69%, our proposal has only a drop of 23%.
- Abstract(参考訳): 深層強化学習(drl)は、家や学校のような環境において、ロボットが特定の物体(例えば「冷蔵庫を探す」)を見つけることを可能にする大きな可能性を示している。
このタスクはObject-Goal Navigation(ObjectNav)として知られている。
DRL法は主に環境シミュレータを用いて訓練・評価されている。
drlは印象的な結果を示したが、シミュレータは偏りや制限がある。
これはショートカット学習のリスク、すなわち、トレーニング環境の特定の視覚的詳細に合わせたポリシーを学ぶことを生み出す。
我々はObjectNavにおけるショートカット学習の理解を深めることを目指しており、その意味と解決策を提案する。
トレーニング環境の外観にショートカットバイアスを挿入する実験を設計する。
概念実証として、部屋のタイプを特定の壁の色(例えば、緑色の壁のある寝室)に関連付け、最先端(SOTA)のObjectNavメソッドの貧弱な一般化を、そうでない環境(例えば、青い壁のある寝室)に観察する。
エージェントは、単に対象オブジェクトの部屋の関連する壁の色を検索することによって、ターゲットオブジェクトへのナビゲートを学ぶ。
そこで我々はLanguage-based (L-B) Augmentationを提案する。
我々の重要な洞察は、視覚言語モデル(VLM)のマルチモーダルな特徴空間を利用して、機能レベルでの視覚的表現を直接拡張し、シミュレータを変更する必要がなく、モデルに1つのレイヤーを追加するだけでよいということです。
SOTA ObjectNav メソッドの成功率は 69% に低下するが,提案手法は 23% に留まる。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings [43.65945397307492]
オープンワールドオブジェクトゴールナビゲーション(ObjectNav)を学習するためのスケーラブルなアプローチを提案する。
このアプローチは完全にゼロショットです -- つまり、ObjectNavの報酬やデモは一切必要ありません。
論文 参考訳(メタデータ) (2022-06-24T17:59:02Z) - Zero-shot object goal visual navigation [15.149900666249096]
実際の家庭では、ロボットが扱うべき多くのオブジェクトクラスが存在するかもしれない。
ゼロショット学習とオブジェクト目標ビジュアルナビゲーションを組み合わせたゼロショットオブジェクトナビゲーションタスクを提案する。
我々のモデルは、目に見えないクラスと見えないクラスの両方でベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-06-15T09:53:43Z) - Auxiliary Tasks and Exploration Enable ObjectNav [48.314102158070874]
補助学習タスクと探索報酬を追加することで,汎用学習エージェントを再生成する。
われわれのエージェントは24.5%の成功、8.1%のSPL、それぞれ37%と8%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2021-04-08T23:03:21Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。