論文の概要: MIMEx: Intrinsic Rewards from Masked Input Modeling
- arxiv url: http://arxiv.org/abs/2305.08932v1
- Date: Mon, 15 May 2023 18:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 17:31:08.458416
- Title: MIMEx: Intrinsic Rewards from Masked Input Modeling
- Title(参考訳): MIMEx: Masked Input Modelingの本質的なリワード
- Authors: Toru Lin, Allan Jabri
- Abstract要約: 本研究では,条件付き予測の目的を擬似的類似性の本質的な推定とみなすことができることを示す。
本稿では,マスク分布を柔軟に調整し,基礎となる条件予測タスクの難易度を制御できる固有報酬を導出するための一般的な枠組みを提案する。
- 参考スコア(独自算出の注目度): 8.160343645537107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploring in environments with high-dimensional observations is hard. One
promising approach for exploration is to use intrinsic rewards, which often
boils down to estimating "novelty" of states, transitions, or trajectories with
deep networks. Prior works have shown that conditional prediction objectives
such as masked autoencoding can be seen as stochastic estimation of
pseudo-likelihood. We show how this perspective naturally leads to a unified
view on existing intrinsic reward approaches: they are special cases of
conditional prediction, where the estimation of novelty can be seen as
pseudo-likelihood estimation with different mask distributions. From this view,
we propose a general framework for deriving intrinsic rewards -- Masked Input
Modeling for Exploration (MIMEx) -- where the mask distribution can be flexibly
tuned to control the difficulty of the underlying conditional prediction task.
We demonstrate that MIMEx can achieve superior results when compared against
competitive baselines on a suite of challenging sparse-reward visuomotor tasks.
- Abstract(参考訳): 高次元観測環境の探索は困難である。
探索のための有望なアプローチの1つは本質的な報酬を使うことであり、これはしばしば、深いネットワークで状態、遷移または軌道の「ノーベルティ」を推定するものである。
従来の研究では、マスク付きオートエンコーディングのような条件付き予測対象が擬似的類似性の確率的推定と見なせることが示されている。
この視点が、既存の本質的な報酬アプローチの統一的見解にどのように結びつくかを示す。これらは条件付き予測の特別な事例であり、新規性の推定は、異なるマスク分布を持つ擬似的類似度推定と見なすことができる。
この観点から,マスク分布を柔軟に調整し,条件付き予測タスクの難易度を制御できる,固有報酬(Masked Input Modeling for Exploration, MIMEx)を導出するための一般的なフレームワークを提案する。
我々は,sparse-reward visuomotorタスク群における競合ベースラインと比較して,mimexが優れた結果が得られることを示す。
関連論文リスト
- Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - PolyMaX: General Dense Prediction with Mask Transformer [35.46799482329031]
本稿では,クラスタ予測に基づく手法を一般化し,一般化された予測タスクを提案する。
これにより、密集予測タスクをマスクトランスフォーマーフレームワークと統合することが可能になる。
結果のモデルであるPolyMaXは、NYUD-v2データセットの3つのベンチマークで最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-09T22:29:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - On Masked Pre-training and the Marginal Likelihood [0.0]
Maskedプレトレーニングはランダムな入力次元を取り除き、不足した値を予測できるモデルを学ぶ。
本稿では,最適累積スコアリング関数を用いたマスク付き事前学習が,モデルの限界確率の最大化に対応していることを示す。
論文 参考訳(メタデータ) (2023-06-01T10:20:44Z) - Bayesian Deep Learning for Affordance Segmentation in images [3.15834651147911]
本稿では,画像の空き地を検出するための新しいベイズディープネットワークを提案する。
空間レベルでの動脈およびてんかんの分布を定量化する。
その結果,決定論的ネットワークの最先端性が向上した。
論文 参考訳(メタデータ) (2023-03-02T00:01:13Z) - GFlowOut: Dropout with Generative Flow Networks [76.59535235717631]
モンテカルロ・ドロップアウトは近似推論の比較的安価な方法として広く利用されている。
最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。
GFlowOutleveragesは、最近提案されたジェネレーティブフローネットワーク(GFlowNets)の確率的フレームワークを使用して、ドロップアウトマスク上の後部分布を学習する。
論文 参考訳(メタデータ) (2022-10-24T03:00:01Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Uncertainty Surrogates for Deep Learning [17.868995105624023]
不確実性サーロゲートを用いて深層ネットワークにおける予測不確実性を推定する新しい方法を紹介します。
これらのサーロゲートは、事前定義されたパターンに一致させるように強制される深いネットワークの衝動層の特徴です。
予測の不確実性や分布異常検出の推定に,本手法の有用性を示す。
論文 参考訳(メタデータ) (2021-04-16T14:50:28Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。