論文の概要: Off-policy Imitation Learning from Visual Inputs
- arxiv url: http://arxiv.org/abs/2111.04345v1
- Date: Mon, 8 Nov 2021 09:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 22:49:47.779046
- Title: Off-policy Imitation Learning from Visual Inputs
- Title(参考訳): 視覚入力からのオフ政治模倣学習
- Authors: Zhihao Cheng, Li Shen, Dacheng Tao
- Abstract要約: 本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 83.22342811160114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various successful applications utilizing expert states in
imitation learning (IL) have been witnessed. However, another IL setting -- IL
from visual inputs (ILfVI), which has a greater promise to be applied in
reality by utilizing online visual resources, suffers from low data-efficiency
and poor performance resulted from an on-policy learning manner and
high-dimensional visual inputs. We propose OPIfVI (Off-Policy Imitation from
Visual Inputs), which is composed of an off-policy learning manner, data
augmentation, and encoder techniques, to tackle the mentioned challenges,
respectively. More specifically, to improve data-efficiency, OPIfVI conducts IL
in an off-policy manner, with which sampled data can be used multiple times. In
addition, we enhance the stability of OPIfVI with spectral normalization to
mitigate the side-effect of off-policy training. The core factor, contributing
to the poor performance of ILfVI, that we think is the agent could not extract
meaningful features from visual inputs. Hence, OPIfVI employs data augmentation
from computer vision to help train encoders that can better extract features
from visual inputs. In addition, a specific structure of gradient
backpropagation for the encoder is designed to stabilize the encoder training.
At last, we demonstrate that OPIfVI is able to achieve expert-level performance
and outperform existing baselines no matter visual demonstrations or visual
observations are provided via extensive experiments using DeepMind Control
Suite.
- Abstract(参考訳): 近年,熟達状態を利用した模倣学習(IL)が成功している。
しかし、もう1つのil設定 - オンラインのビジュアルリソースを利用することで現実に応用する可能性がより高いvisual inputs(ilfvi)からのilは、データ効率の低下と、オンポリシーな学習方法と高次元の視覚入力によって生じるパフォーマンスの低下に苦しむ。
本稿では,これらの課題に対処するために,政治以外の学習方法,データ拡張,エンコーダ技術からなるOPIfVI(Off-Policy Imitation from Visual Inputs)を提案する。
より具体的には、データ効率を改善するため、opifviはオフラインでilを実行し、サンプルされたデータを複数回使用できる。
さらに,スペクトル正規化によりopifviの安定性を高め,オフポリシートレーニングの副作用を緩和する。
ilfviのパフォーマンス低下に寄与する中心的な要因は、エージェントが視覚入力から有意義な特徴を抽出することができないことだ。
したがって、OPIfVIはコンピュータビジョンからのデータ拡張を利用して、視覚入力からより優れた特徴を抽出できるエンコーダを訓練する。
さらに、エンコーダの勾配バックプロパゲーションの特定の構造は、エンコーダトレーニングを安定化するように設計されている。
最終的に、OPIfVIは、DeepMind Control Suiteを用いた広範囲な実験によって、視覚的な実演や視覚的な観察がなくても、専門家レベルのパフォーマンスを達成でき、既存のベースラインよりも優れていることを実証した。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Can Contrastive Learning Refine Embeddings [7.212172283470726]
SIMSKIPは、下流タスクの入力埋め込みを特に洗練する対照的な学習フレームワークである。
SIMSKIPは,従来の埋め込みよりも下流タスクエラーの上限が大きくないことを示す。
論文 参考訳(メタデータ) (2024-04-11T01:16:33Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - PerceptionGPT: Effectively Fusing Visual Perception into LLM [31.34127196055722]
視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。
本稿では,視覚的知覚能力を持つVLLMを効率よく装備するPerceptionGPTという新しいエンドツーエンドフレームワークを提案する。
本手法は,視覚出力を離散トークンとして定式化する従来の手法によるトレーニングの難しさを著しく軽減する。
論文 参考訳(メタデータ) (2023-11-11T16:59:20Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z) - Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer [29.548242447584194]
視覚的観察から学ぶための2段階のフレームワークを提案する。
第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。
第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
論文 参考訳(メタデータ) (2023-06-22T13:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。