Fugu-MT 論文翻訳(概要): Learning to Identify Critical States for Reinforcement Learning from Videos

論文の概要: Learning to Identify Critical States for Reinforcement Learning from Videos

arxiv url: http://arxiv.org/abs/2308.07795v1
Date: Tue, 15 Aug 2023 14:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 12:29:51.969037
Title: Learning to Identify Critical States for Reinforcement Learning from Videos
Title（参考訳）: 映像からの強化学習における臨界状態の同定
Authors: Haozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio, Bernard Ghanem, J\"urgen Schmidhuber
Abstract要約: 優れたポリシに関するアルゴリズム情報は、実行されたアクションに関する明示的な情報を持たないオフラインデータから抽出することができる。例えば、人間やロボットのビデオは、アクションシーケンスに対する報酬に関する暗黙の情報を多く伝達することができる。このようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し、認識するために、自分で学習する必要がある。
参考スコア（独自算出の注目度）: 55.75825780842156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work on deep reinforcement learning (DRL) has pointed out that algorithmic information about good policies can be extracted from offline data which lack explicit information about executed actions. For example, videos of humans or robots may convey a lot of implicit information about rewarding action sequences, but a DRL machine that wants to profit from watching such videos must first learn by itself to identify and recognize relevant states/actions/rewards. Without relying on ground-truth annotations, our new method called Deep State Identifier learns to predict returns from episodes encoded as videos. Then it uses a kind of mask-based sensitivity analysis to extract/identify important critical states. Extensive experiments showcase our method's potential for understanding and improving agent behavior. The source code and the generated datasets are available at https://github.com/AI-Initiative-KAUST/VideoRLCS.
Abstract（参考訳）: 近年の深層強化学習(DRL)の研究は、実行された行動に関する明示的な情報を持たないオフラインデータから良い方針に関するアルゴリズム情報を抽出できることを指摘している。例えば、人間やロボットのビデオは、報酬のアクションシーケンスに関する多くの暗黙の情報を伝達するかもしれないが、そのようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し認識するために、自分で学ぶ必要がある。 Deep State Identifierと呼ばれる新しい手法は、ビデオとしてエンコードされたエピソードからのリターンを予測する。そして、マスクベースの感度分析を使って重要な重要な状態を抽出・識別する。広範囲な実験は、エージェントの振る舞いを理解し改善するための方法の可能性を示す。ソースコードと生成されたデータセットはhttps://github.com/AI-Initiative-KAUST/VideoRLCSで公開されている。

関連論文リスト

Unmasking Deep Fakes: Leveraging Deep Learning for Video Authenticity Detection [3.483595743063401]
本論文の主な動機は,ディープラーニング技術を用いたディープフェイク映像の認識である。我々は、MSCNNを顔検出器とし、EfficientNet-B5をエンコーダモデルとし、ビデオがディープフェイクかどうかを予測する。その結果、我々のディープフェイク検出モデルは、カグルのDFDCデータセットで42.78%のログ損失、93.80%のAUC、86.82%のF1スコアを得た。
論文参考訳（メタデータ） (2025-05-10T06:19:14Z)
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data [56.217490064597506]
広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
論文参考訳（メタデータ） (2025-03-23T21:24:33Z)
Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文参考訳（メタデータ） (2024-11-04T21:42:56Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文参考訳（メタデータ） (2023-09-22T17:59:14Z)
Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。我々のアプローチは、意図をモデル化することで受動的データから学習する。実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:59:05Z)
Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。 SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-11T05:50:16Z)
A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文参考訳（メタデータ） (2020-12-11T18:54:08Z)
Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文参考訳（メタデータ） (2020-03-14T22:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。