論文の概要: VDSC: Enhancing Exploration Timing with Value Discrepancy and State Counts
- arxiv url: http://arxiv.org/abs/2403.17542v1
- Date: Tue, 26 Mar 2024 09:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:57:01.661617
- Title: VDSC: Enhancing Exploration Timing with Value Discrepancy and State Counts
- Title(参考訳): VDSC: 価値の相違と状態カウントによる探索タイムの強化
- Authors: Marius Captari, Remo Sasso, Matthia Sabatelli,
- Abstract要約: より洗練された探査戦略は、特定の、しばしばまばらな報酬環境において優れている。
本稿では,効率的な探索タイミングのための新しいアプローチであるホメオスタシス(VDSC)を通して,値の相違と状態のカウントを提示する。
Atariスイートの実験結果は,従来の手法よりも戦略が優れていることを示している。
- 参考スコア(独自算出の注目度): 2.2530496464901106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the considerable attention given to the questions of \textit{how much} and \textit{how to} explore in deep reinforcement learning, the investigation into \textit{when} to explore remains relatively less researched. While more sophisticated exploration strategies can excel in specific, often sparse reward environments, existing simpler approaches, such as $\epsilon$-greedy, persist in outperforming them across a broader spectrum of domains. The appeal of these simpler strategies lies in their ease of implementation and generality across a wide range of domains. The downside is that these methods are essentially a blind switching mechanism, which completely disregards the agent's internal state. In this paper, we propose to leverage the agent's internal state to decide \textit{when} to explore, addressing the shortcomings of blind switching mechanisms. We present Value Discrepancy and State Counts through homeostasis (VDSC), a novel approach for efficient exploration timing. Experimental results on the Atari suite demonstrate the superiority of our strategy over traditional methods such as $\epsilon$-greedy and Boltzmann, as well as more sophisticated techniques like Noisy Nets.
- Abstract(参考訳): 深層強化学習における『textit{how much} 』と『textit{how to} 』の疑問に対する大きな関心にもかかわらず、『textit{when} 』を探索するための『textit{when} 』の研究は、いまだにあまり研究されていない。
より洗練された探索戦略は、特定の、しばしば希薄な報酬環境において優れているが、$\epsilon$-greedyのような既存の単純なアプローチは、より広い範囲の領域でそれらを上回り続ける。
これらのより単純な戦略の魅力は、実装の容易さと幅広い領域にわたる一般性にある。
欠点は、これらの方法が本質的には、エージェントの内部状態を完全に無視するブラインドスイッチング機構であることだ。
本稿では,エージェントの内部状態を利用して,ブラインドスイッチング機構の欠点に対処する。
本稿では,効率的な探索タイミングのための新しいアプローチであるホメオスタシス(VDSC)を通して,値の相違と状態のカウントを提示する。
Atari スイートの実験結果は、$\epsilon$-greedy や Boltzmann といった従来の手法や、Noisy Nets のようなより洗練された手法よりも、我々の戦略が優れていることを示す。
関連論文リスト
- Exposing the Deception: Uncovering More Forgery Clues for Deepfake
Detection [36.92399832886853]
現在のディープフェイク検出アプローチは、一箇所または数箇所の偽の手がかりにのみ焦点を絞って、オーバーフィッティングの罠に陥る可能性がある。
本稿では,複数の重複しない局所表現を抽出し,それらをグローバルな意味豊かな特徴に融合することにより,より広範な偽の手がかりを捉える新しい枠組みを提案する。
提案手法は,5つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-04T07:28:23Z) - Contrastive Pseudo Learning for Open-World DeepFake Attribution [67.58954345538547]
オープンワールド・ディープフェイク (OW-DFA) と呼ばれる新しいベンチマークを導入する。
OW-DFAタスクにおけるコントラスト擬似学習(Contrastive Pseudo Learning, CPL)と呼ばれる新しいフレームワークを提案する。1)グローバル・ローカル投票モジュールを導入し、異なる操作領域の偽顔の特徴的アライメントを誘導し、2)信頼に基づくソフト擬似ラベル戦略を設計し、類似の手法による非ラベル集合における擬似雑音の軽減を図る。
論文 参考訳(メタデータ) (2023-09-20T08:29:22Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - System III: Learning with Domain Knowledge for Safety Constraints [0.0]
本稿では,安全な探索とサンプル効率の向上を支援するために,ドメイン知識を取り入れた新しいフレームワークを提案する。
このアプローチでは、$textitSystem III$と呼ばれ、一階述語論理という形で安全に関するドメインエキスパートの知識を表現します。
提案手法が OpenAI の Gym および Safety-Gym 環境に与える影響を評価する。
論文 参考訳(メタデータ) (2023-04-23T09:44:41Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Local Relation Learning for Face Forgery Detection [73.73130683091154]
局所的関係学習による顔の偽造検出の新たな視点を提案する。
具体的には,局所的な特徴間の類似度を測定するMPSM(Multi-scale Patch similarity Module)を提案する。
また、より包括的な局所特徴表現のために、RGBおよび周波数領域の情報を融合するRGB-Frequency Attention Module (RFAM)を提案する。
論文 参考訳(メタデータ) (2021-05-06T10:44:32Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。