Fugu-MT 論文翻訳(概要): Off-policy Imitation Learning from Visual Inputs

論文の概要: Off-policy Imitation Learning from Visual Inputs

arxiv url: http://arxiv.org/abs/2111.04345v1
Date: Mon, 8 Nov 2021 09:06:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-09 22:49:47.779046
Title: Off-policy Imitation Learning from Visual Inputs
Title（参考訳）: 視覚入力からのオフ政治模倣学習
Authors: Zhihao Cheng, Li Shen, Dacheng Tao
Abstract要約: 本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。 OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
参考スコア（独自算出の注目度）: 83.22342811160114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, various successful applications utilizing expert states in imitation learning (IL) have been witnessed. However, another IL setting -- IL from visual inputs (ILfVI), which has a greater promise to be applied in reality by utilizing online visual resources, suffers from low data-efficiency and poor performance resulted from an on-policy learning manner and high-dimensional visual inputs. We propose OPIfVI (Off-Policy Imitation from Visual Inputs), which is composed of an off-policy learning manner, data augmentation, and encoder techniques, to tackle the mentioned challenges, respectively. More specifically, to improve data-efficiency, OPIfVI conducts IL in an off-policy manner, with which sampled data can be used multiple times. In addition, we enhance the stability of OPIfVI with spectral normalization to mitigate the side-effect of off-policy training. The core factor, contributing to the poor performance of ILfVI, that we think is the agent could not extract meaningful features from visual inputs. Hence, OPIfVI employs data augmentation from computer vision to help train encoders that can better extract features from visual inputs. In addition, a specific structure of gradient backpropagation for the encoder is designed to stabilize the encoder training. At last, we demonstrate that OPIfVI is able to achieve expert-level performance and outperform existing baselines no matter visual demonstrations or visual observations are provided via extensive experiments using DeepMind Control Suite.
Abstract（参考訳）: 近年,熟達状態を利用した模倣学習(IL)が成功している。しかし、もう1つのil設定 - オンラインのビジュアルリソースを利用することで現実に応用する可能性がより高いvisual inputs(ilfvi)からのilは、データ効率の低下と、オンポリシーな学習方法と高次元の視覚入力によって生じるパフォーマンスの低下に苦しむ。本稿では,これらの課題に対処するために,政治以外の学習方法,データ拡張,エンコーダ技術からなるOPIfVI(Off-Policy Imitation from Visual Inputs)を提案する。より具体的には、データ効率を改善するため、opifviはオフラインでilを実行し、サンプルされたデータを複数回使用できる。さらに,スペクトル正規化によりopifviの安定性を高め,オフポリシートレーニングの副作用を緩和する。 ilfviのパフォーマンス低下に寄与する中心的な要因は、エージェントが視覚入力から有意義な特徴を抽出することができないことだ。したがって、OPIfVIはコンピュータビジョンからのデータ拡張を利用して、視覚入力からより優れた特徴を抽出できるエンコーダを訓練する。さらに、エンコーダの勾配バックプロパゲーションの特定の構造は、エンコーダトレーニングを安定化するように設計されている。最終的に、OPIfVIは、DeepMind Control Suiteを用いた広範囲な実験によって、視覚的な実演や視覚的な観察がなくても、専門家レベルのパフォーマンスを達成でき、既存のベースラインよりも優れていることを実証した。

関連論文リスト

Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。 EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文参考訳（メタデータ） (2025-06-09T10:45:35Z)
On the Perception Bottleneck of VLMs for Chart Understanding [17.70892579781301]
チャート理解には、数値データ、テキスト要素、複雑なビジュアルコンポーネントを分析し、推論するモデルが必要である。この過程において,既存の大規模視覚言語モデル(LVLM)の知覚能力が重要なボトルネックとなっていることが明らかとなった。本研究では,視覚エンコーダのボトルネックと抽出ボトルネックの2つのコンポーネントに分解することで,この認識ボトルネックを解明する。
論文参考訳（メタデータ） (2025-03-24T08:33:58Z)
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文参考訳（メタデータ） (2025-02-17T12:26:34Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文参考訳（メタデータ） (2025-02-10T18:59:58Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。 EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文参考訳（メタデータ） (2024-06-17T17:59:44Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
Can Contrastive Learning Refine Embeddings [7.212172283470726]
SIMSKIPは、下流タスクの入力埋め込みを特に洗練する対照的な学習フレームワークである。 SIMSKIPは,従来の埋め込みよりも下流タスクエラーの上限が大きくないことを示す。
論文参考訳（メタデータ） (2024-04-11T01:16:33Z)
MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文参考訳（メタデータ） (2024-01-30T18:09:11Z)
PerceptionGPT: Effectively Fusing Visual Perception into LLM [31.34127196055722]
視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。本稿では,視覚的知覚能力を持つVLLMを効率よく装備するPerceptionGPTという新しいエンドツーエンドフレームワークを提案する。本手法は,視覚出力を離散トークンとして定式化する従来の手法によるトレーニングの難しさを著しく軽減する。
論文参考訳（メタデータ） (2023-11-11T16:59:20Z)
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文参考訳（メタデータ） (2023-07-17T14:08:17Z)
Learning from Visual Observation via Offline Pretrained State-to-Go Transformer [29.548242447584194]
視覚的観察から学ぶための2段階のフレームワークを提案する。第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
論文参考訳（メタデータ） (2023-06-22T13:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。