論文の概要: Visual Imitation Learning with Patch Rewards
- arxiv url: http://arxiv.org/abs/2302.00965v1
- Date: Thu, 2 Feb 2023 09:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:39:00.885454
- Title: Visual Imitation Learning with Patch Rewards
- Title(参考訳): Patch Rewardsを用いた視覚模倣学習
- Authors: Minghuan Liu, Tairan He, Weinan Zhang, Shuicheng Yan, Zhongwen Xu
- Abstract要約: Patch Rewards (PatchAIL) を用いた逆学習を提案する。
PatchAILは、パッチベースの識別器を使用して、与えられた画像から異なるローカル部分の専門知識を測定し、パッチ報酬を提供する。
我々はDeepMind Control SuiteとAtariタスクについて評価を行った。
- 参考スコア(独自算出の注目度): 86.69095240683782
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual imitation learning enables reinforcement learning agents to learn to
behave from expert visual demonstrations such as videos or image sequences,
without explicit, well-defined rewards. Previous research either adopted
supervised learning techniques or induce simple and coarse scalar rewards from
pixels, neglecting the dense information contained in the image demonstrations.
In this work, we propose to measure the expertise of various local regions of
image samples, or called \textit{patches}, and recover multi-dimensional
\textit{patch rewards} accordingly. Patch reward is a more precise rewarding
characterization that serves as a fine-grained expertise measurement and visual
explainability tool. Specifically, we present Adversarial Imitation Learning
with Patch Rewards (PatchAIL), which employs a patch-based discriminator to
measure the expertise of different local parts from given images and provide
patch rewards. The patch-based knowledge is also used to regularize the
aggregated reward and stabilize the training. We evaluate our method on
DeepMind Control Suite and Atari tasks. The experiment results have
demonstrated that PatchAIL outperforms baseline methods and provides valuable
interpretations for visual demonstrations.
- Abstract(参考訳): 視覚模倣学習により、強化学習エージェントは、明確に定義された報酬なしで、ビデオや画像シーケンスのような専門的な視覚的なデモンストレーションから振る舞うことができる。
これまでの研究では、教師付き学習技術を採用するか、画像のデモに含まれる濃密な情報を無視して、ピクセルから単純で粗いスカラー報酬を誘導していた。
本研究では,画像サンプルの各種局所領域の専門知識,あるいは \textit{patches} と呼ばれる知識を測定し,それに応じて多次元 \textit{patch rewards} を回収する手法を提案する。
パッチ報酬は、きめ細かい専門知識の測定と視覚的説明可能性のツールとして機能する、より正確な報酬評価である。
具体的には,特定の画像から異なる部分の専門知識を計測し,パッチ報酬を提供するパッチベース判別器(patchail)を用いた,敵対的模倣学習(adversarial imitation learning with patch rewards)を提案する。
パッチベースの知識は、集約された報酬を規則化し、トレーニングを安定化するためにも使われる。
我々はDeepMind Control SuiteとAtariタスクについて評価を行った。
実験の結果、pattailはベースラインメソッドよりも優れており、視覚的なデモンストレーションに有用な解釈を提供することがわかった。
関連論文リスト
- Semi-supervised 3D Object Detection with PatchTeacher and PillarMix [71.4908268136439]
現在の半教師付き3Dオブジェクト検出法では、教師が学生に擬似ラベルを生成するのが一般的である。
学生に高品質な擬似ラベルを提供するために,部分的なシーン3Dオブジェクト検出に焦点を当てたPatchTeacherを提案する。
本稿では,PatchTeacherの性能向上のために,Patch Normalizer,Quadrant Align,Fovea Selectionの3つの重要なテクニックを紹介する。
論文 参考訳(メタデータ) (2024-07-13T06:58:49Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations [58.48995335728938]
対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
論文 参考訳(メタデータ) (2022-07-25T10:40:40Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Unsupervised Skill-Discovery and Skill-Learning in Minecraft [0.0]
状態表現の教師なしスキル発見と自己教師付き学習を活用する。
変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。
以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことが示唆された。
論文 参考訳(メタデータ) (2021-07-18T09:28:21Z) - Unsupervised Visual Representation Learning by Tracking Patches in Video [88.56860674483752]
本研究では,コンピュータビジョンシステムのプロキシタスクとしてトラッキングを用いて視覚表現を学習することを提案する。
子どもたちがプレイするキャッチゲームをベースに、視覚表現を学ぶ3D-CNNモデルのためのキャッチ・ザ・パッチ(CtP)ゲームを設計します。
論文 参考訳(メタデータ) (2021-05-06T09:46:42Z) - PatchVAE: Learning Local Latent Codes for Recognition [38.82903227239025]
VAEによって学習された教師なしの表現は、教師なしの学習によって認識のために学習された表現によって著しく優れています。
我々の仮説は、モデルを認識する上で有用な表現を学ぶためには、データ内の反復パターンと一貫したパターンについて学ぶことを奨励する必要がある、というものである。
実験により,本手法で学習した表現は,バニラVAEで学習した表現よりも,認識タスクにおいて優れることが示された。
論文 参考訳(メタデータ) (2020-04-07T18:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。