論文の概要: Learning to Identify Critical States for Reinforcement Learning from
Videos
- arxiv url: http://arxiv.org/abs/2308.07795v1
- Date: Tue, 15 Aug 2023 14:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 12:29:51.969037
- Title: Learning to Identify Critical States for Reinforcement Learning from
Videos
- Title(参考訳): 映像からの強化学習における臨界状態の同定
- Authors: Haozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio,
Bernard Ghanem, J\"urgen Schmidhuber
- Abstract要約: 優れたポリシに関するアルゴリズム情報は、実行されたアクションに関する明示的な情報を持たないオフラインデータから抽出することができる。
例えば、人間やロボットのビデオは、アクションシーケンスに対する報酬に関する暗黙の情報を多く伝達することができる。
このようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し、認識するために、自分で学習する必要がある。
- 参考スコア(独自算出の注目度): 55.75825780842156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on deep reinforcement learning (DRL) has pointed out that
algorithmic information about good policies can be extracted from offline data
which lack explicit information about executed actions. For example, videos of
humans or robots may convey a lot of implicit information about rewarding
action sequences, but a DRL machine that wants to profit from watching such
videos must first learn by itself to identify and recognize relevant
states/actions/rewards. Without relying on ground-truth annotations, our new
method called Deep State Identifier learns to predict returns from episodes
encoded as videos. Then it uses a kind of mask-based sensitivity analysis to
extract/identify important critical states. Extensive experiments showcase our
method's potential for understanding and improving agent behavior. The source
code and the generated datasets are available at
https://github.com/AI-Initiative-KAUST/VideoRLCS.
- Abstract(参考訳): 近年の深層強化学習(DRL)の研究は、実行された行動に関する明示的な情報を持たないオフラインデータから良い方針に関するアルゴリズム情報を抽出できることを指摘している。
例えば、人間やロボットのビデオは、報酬のアクションシーケンスに関する多くの暗黙の情報を伝達するかもしれないが、そのようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し認識するために、自分で学ぶ必要がある。
Deep State Identifierと呼ばれる新しい手法は、ビデオとしてエンコードされたエピソードからのリターンを予測する。
そして、マスクベースの感度分析を使って重要な重要な状態を抽出・識別する。
広範囲な実験は、エージェントの振る舞いを理解し改善するための方法の可能性を示す。
ソースコードと生成されたデータセットはhttps://github.com/AI-Initiative-KAUST/VideoRLCSで公開されている。
関連論文リスト
- Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。