論文の概要: Visual Hindsight Self-Imitation Learning for Interactive Navigation
- arxiv url: http://arxiv.org/abs/2312.03446v1
- Date: Tue, 5 Dec 2023 05:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:11:23.911673
- Title: Visual Hindsight Self-Imitation Learning for Interactive Navigation
- Title(参考訳): インタラクティブナビゲーションのための視覚後視自己模倣学習
- Authors: Kibeom Kim, Kisung Shin, Min Whoo Lee, Moonhoen Lee, Minsu Lee,
Byoung-Tak Zhang
- Abstract要約: 本稿では,視覚的ハイビジョン・セルフ・イミテーション・ラーニング(VHS)を提案する。
VHSはインタラクティブなビジュアルナビゲーションタスクにおいて、既存の技術よりも優れています。
- 参考スコア(独自算出の注目度): 18.02337761240743
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Interactive visual navigation tasks, which involve following instructions to
reach and interact with specific targets, are challenging not only because
successful experiences are very rare but also because the complex visual inputs
require a substantial number of samples. Previous methods for these tasks often
rely on intricately designed dense rewards or the use of expensive expert data
for imitation learning. To tackle these challenges, we propose a novel
approach, Visual Hindsight Self-Imitation Learning (VHS) for enhancing sample
efficiency through hindsight goal re-labeling and self-imitation. We also
introduce a prototypical goal embedding method derived from experienced goal
observations, that is particularly effective in vision-based and partially
observable environments. This embedding technique allows the agent to visually
reinterpret its unsuccessful attempts, enabling vision-based goal re-labeling
and self-imitation from enhanced successful experiences. Experimental results
show that VHS outperforms existing techniques in interactive visual navigation
tasks, confirming its superior performance and sample efficiency.
- Abstract(参考訳): インタラクティブなビジュアルナビゲーションタスクは、特定のターゲットに到達し、対話するための次の命令を伴うが、成功した経験が非常に稀であるだけでなく、複雑な視覚入力にはかなりの数のサンプルを必要とするため、難しい。
これらのタスクの以前の方法は、複雑な設計の密集した報酬や、高価な専門家データを使って模倣学習を行うことが多い。
そこで,これらの課題に取り組むために,視覚後発的自己模倣学習(vhs)という新しいアプローチを提案し,後発的目標の再ラベルと自己模倣を通じてサンプル効率を向上させる。
また,視覚ベースおよび部分観測可能な環境において特に効果的である経験的目標観測に基づく目標埋め込み手法を提案する。
この埋め込み技術により、エージェントは失敗する試みを視覚的に再解釈することができ、視覚に基づくゴールのラベル付けと、成功経験の強化による自己想像を可能にする。
実験の結果、VHSはインタラクティブな視覚ナビゲーションタスクにおいて既存の技術よりも優れており、優れた性能とサンプル効率が確認されている。
関連論文リスト
- Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。