論文の概要: PEARL: Preconditioner Enhancement through Actor-critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.10750v1
- Date: Sat, 18 Jan 2025 12:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:13.747302
- Title: PEARL: Preconditioner Enhancement through Actor-critic Reinforcement Learning
- Title(参考訳): PEARL:アクター・クリティカル強化学習によるプレコンディショナー強化
- Authors: David Millard, Arielle Carr, Stéphane Gaudreault, Ali Baheri,
- Abstract要約: PEARL(Preconditioner Enhancement through Actor-critic Reinforcement Learning)は,行列プレコンディショナーを学習するための新しい手法である。
近年、深層ニューラルネットワークを用いてプレコンディショナーを学習する方法が検討されているが、目標関数の誤動作やコストのかかるトレーニング手順といった課題は残されている。
- 参考スコア(独自算出の注目度): 5.433548785820674
- License:
- Abstract: We present PEARL (Preconditioner Enhancement through Actor-critic Reinforcement Learning), a novel approach to learning matrix preconditioners. Existing preconditioners such as Jacobi, Incomplete LU, and Algebraic Multigrid methods offer problem-specific advantages but rely heavily on hyperparameter tuning. Recent advances have explored using deep neural networks to learn preconditioners, though challenges such as misbehaved objective functions and costly training procedures remain. PEARL introduces a reinforcement learning approach for learning preconditioners, specifically, a contextual bandit formulation. The framework utilizes an actor-critic model, where the actor generates the incomplete Cholesky decomposition of preconditioners, and the critic evaluates them based on reward-specific feedback. To further guide the training, we design a dual-objective function, combining updates from the critic and condition number. PEARL contributes a generalizable preconditioner learning method, dynamic sparsity exploration, and cosine schedulers for improved stability and exploratory power. We compare our approach to traditional and neural preconditioners, demonstrating improved flexibility and iterative solving speed.
- Abstract(参考訳): PEARL(Preconditioner Enhancement through Actor-critic Reinforcement Learning)は,行列プレコンディショナーを学習するための新しい手法である。
Jacobi、Incomplete LU、Algebraic Multigridなどの既存のプレコンディショナーは問題固有の利点を提供するが、ハイパーパラメータチューニングに大きく依存している。
近年、深層ニューラルネットワークを用いてプレコンディショナーを学習する方法が検討されているが、目標関数の誤動作やコストのかかるトレーニング手順といった課題は残されている。
PEARLは、プレコンディショナー、特に文脈的バンディット定式化を学習するための強化学習アプローチを導入する。
この枠組みは、プレコンディショナーの不完全なチョレスキー分解をアクターが生成するアクター批判モデルを利用しており、批評家は報酬固有のフィードバックに基づいてそれらを評価する。
トレーニングをさらに指導するため、批判者からの更新と条件番号を組み合わせた二重目的関数を設計する。
PEARLは、安定性と探索力を向上させるために、一般化可能なプレコンディショナー学習法、動的空間探索、コサインスケジューラを提供する。
従来のプリコンディショナーとニューラルプレコンディショナーを比較し、柔軟性の向上と反復的な問題解決のスピードを実証した。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised
Learning of Actions [69.14257241250046]
ラベルなしの骨格に基づく行動認識のためのモデル学習のための新しいコントラスト学習手法を提案する。
私たちの重要な貢献は、単純なモジュールであるHalucinate Latent Positivesのコントラスト学習へのHalucinate HaLPです。
実験を通して、標準のコントラスト学習フレームワーク内でこれらの生成した正を使用すれば、一貫した改善がもたらされることを示す。
論文 参考訳(メタデータ) (2023-04-01T21:09:43Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Neurally Augmented ALISTA [15.021419552695066]
本稿では、LSTMネットワークを用いて、再構成中の各ターゲットベクトルのステップサイズと閾値を個別に計算するニューラルネットワークALISTAを提案する。
提案手法はスパース再構成における経験的性能をさらに向上させ,特に圧縮比がより困難になるにつれて,既存のアルゴリズムのマージンが向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。