論文の概要: Ratio Divergence Learning Using Target Energy in Restricted Boltzmann Machines: Beyond Kullback--Leibler Divergence Learning
- arxiv url: http://arxiv.org/abs/2409.07679v1
- Date: Thu, 12 Sep 2024 01:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:11:59.470431
- Title: Ratio Divergence Learning Using Target Energy in Restricted Boltzmann Machines: Beyond Kullback--Leibler Divergence Learning
- Title(参考訳): 制約ボルツマンマシンにおける目標エネルギーを用いた比微分学習--Kulback-Leibler Divergence Learningを超えて-
- Authors: Yuichi Ishida, Yuma Ichikawa, Aki Dote, Toshiyuki Miyazawa, Koji Hukushima,
- Abstract要約: 本稿では,離散エネルギーモデルに対する比率分散(RD)学習を提案する。
RD学習は、前向きと逆向きのKullback-Leibler divergence(KLD)学習の強さを組み合わせる。
数値実験により、RD学習は他の学習方法よりもかなり優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose ratio divergence (RD) learning for discrete energy-based models, a method that utilizes both training data and a tractable target energy function. We apply RD learning to restricted Boltzmann machines (RBMs), which are a minimal model that satisfies the universal approximation theorem for discrete distributions. RD learning combines the strength of both forward and reverse Kullback-Leibler divergence (KLD) learning, effectively addressing the "notorious" issues of underfitting with the forward KLD and mode-collapse with the reverse KLD. Since the summation of forward and reverse KLD seems to be sufficient to combine the strength of both approaches, we include this learning method as a direct baseline in numerical experiments to evaluate its effectiveness. Numerical experiments demonstrate that RD learning significantly outperforms other learning methods in terms of energy function fitting, mode-covering, and learning stability across various discrete energy-based models. Moreover, the performance gaps between RD learning and the other learning methods become more pronounced as the dimensions of target models increase.
- Abstract(参考訳): 本稿では,学習データと抽出可能な目標エネルギー関数を併用した離散エネルギーモデルに対する比率分散(RD)学習を提案する。
我々は、離散分布の普遍近似定理を満たす最小モデルである制限ボルツマンマシン(RBM)にRD学習を適用する。
RD学習は、KLD(Kulback-Leibler divergence)学習と逆KLD(Kulback-Leibler divergence)学習の双方の長所を結合し、KLDの前方KLDとモード崩壊の「目立たない」問題に効果的に対処する。
前後のKLDの和は両手法の強みを組み合わせるのに十分であると考えられるので,本学習法を数値実験において直接ベースラインとして含み,その有効性を評価する。
数値実験により、RD学習は、様々な離散エネルギーベースモデルにおいて、エネルギー関数の適合、モード被覆、学習安定性の点で、他の学習方法よりも大幅に優れていることが示された。
さらに,ターゲットモデルの次元が大きくなるにつれて,RD学習と他の学習手法のパフォーマンスギャップが顕著になる。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - A Training-Free Conditional Diffusion Model for Learning Stochastic Dynamical Systems [10.820654486318336]
本研究では,未知の微分方程式(SDE)をデータを用いて学習するための学習自由条件拡散モデルを提案する。
提案手法はSDEのモデリングにおける計算効率と精度の重要な課題に対処する。
学習されたモデルは、未知のシステムの短期的および長期的両方の挙動を予測する上で、大幅な改善を示す。
論文 参考訳(メタデータ) (2024-10-04T03:07:36Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Sample-efficient Reinforcement Learning Representation Learning with
Curiosity Contrastive Forward Dynamics Model [17.41484483119774]
本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、よりサンプル効率の高い強化学習(RL)を実現する。
CCFDMはフォワードダイナミクスモデル(FDM)を導入し、その深層畳み込みニューラルネットワークベースのイメージエンコーダ(IE)をトレーニングするためのコントラスト学習を実行する
トレーニング中、CFDMはFDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。
論文 参考訳(メタデータ) (2021-03-15T10:08:52Z) - Imitation with Neural Density Models [98.34503611309256]
本稿では,Imitation Occupancy Entropy Reinforcement Learning (RL) を報奨として,専門家の占有率の密度推定によるImitation Learning (IL) の新しい枠組みを提案する。
提案手法は,専門家の占有率と模倣者の占有率の逆Kulback-Leibler偏差を確実に低くする非逆モデル自由RLの目的を最大化する。
論文 参考訳(メタデータ) (2020-10-19T19:38:36Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。