論文の概要: A Mutual Information-based Metric for Temporal Expressivity and Trainability Estimation in Quantum Policy Gradient Pipelines
- arxiv url: http://arxiv.org/abs/2512.05157v1
- Date: Thu, 04 Dec 2025 07:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.763388
- Title: A Mutual Information-based Metric for Temporal Expressivity and Trainability Estimation in Quantum Policy Gradient Pipelines
- Title(参考訳): 量子ポリシー勾配パイプラインにおける時間的表現性と訓練性評価のための相互情報に基づくメトリクス
- Authors: Jaehun Jeong, Donghwa Ji, Junghee Ryu, Kabgyun Jeong,
- Abstract要約: 勾配に基づくアプローチ、特に政策勾配法は、多くの利点があると考えられている。
学習の観点からは、2つの指標が最も重要視される:表現性と勾配に基づく方法、訓練性である。
行動分布と報奨信号分布の相互情報は、ある点において、表現性と訓練性の両方に関する情報を示すことができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, various limitations of conventional supervised learning have been highlighted, leading to the emergence of reinforcement learning -- and, further, quantum reinforcement learning that exploits quantum resources such as entanglement and superposition -- as promising alternatives. Among the various reinforcement learning methodologies, gradient-based approaches, particularly policy gradient methods, are considered to have many benefits. Moreover, in the quantum regime, they also have a profit in that they can be readily implemented through parameterized quantum circuits (PQCs). From the perspective of learning, two indicators can be regarded as most crucial: expressivity and, for gradient-based methods, trainability. While a number of attempts have been made to quantify the expressivity and trainability of PQCs, clear efforts in the context of reinforcement learning have so far been lacking. Therefore, in this study, we newly define the notion of expressivity suited to reinforcement learning and demonstrate that the mutual information between action distribution and reward-signal distribution can, in certain respects, indicate information about both expressivity and trainability. Such research is valuable in that it provides an easy criterion for choosing among various PQCs employed in reinforcement learning, and further, enables the indirect estimation of learning progress even in black-box settings where the agent's achievement aligned with the episodes cannot be explicitly evaluated.
- Abstract(参考訳): 近年、従来の教師あり学習の様々な制限が強調され、強化学習が出現し、さらに、絡み合いや重ね合わせのような量子資源を利用する量子強化学習が有望な代替手段として登場した。
様々な強化学習手法の中で、勾配に基づくアプローチ、特に政策勾配法には多くの利点があると考えられている。
さらに、量子状態においては、パラメータ化量子回路(PQC)によって容易に実装できるという利益もある。
学習の観点からは、2つの指標が最も重要視される:表現性と勾配に基づく方法、訓練性である。
PQCの表現性と訓練性を定量化するための試みがいくつか行われているが、強化学習の文脈における明らかな取り組みは、今のところ欠落している。
そこで本研究では,強化学習に適した表現性の概念を新たに定義し,行動分布と報奨信号分布の相互情報が,表現性と訓練性の両方に関する情報を示すことを示す。
このような研究は、強化学習に使用される様々なPQCの中から選択し易い基準を提供し、また、エージェントの成果がエピソードに一致しないブラックボックス設定においても、学習進捗の間接的推定を可能にするという点で有益である。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective [52.38531288378491]
強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
論文 参考訳(メタデータ) (2025-09-26T17:39:48Z) - Learning safe, constrained policies via imitation learning: Connection to Probabilistic Inference and a Naive Algorithm [0.22099217573031676]
本稿では,タスクを実行する専門家が示す制約に従って,最大エントロピーポリシーを学習するための模倣学習手法を紹介する。
実験により,制約を課す動作に対する効果的なポリシーモデルを,異なるタイプの制約が複数あり,一般化可能な設定で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-07-09T12:11:27Z) - Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - A Unified Framework for Quantum Supervised Learning [0.7366405857677226]
トレーニング可能な量子回路を用いた教師あり学習のための埋め込み型フレームワークを提案する。
これらのアプローチの目的は、異なるクラスからヒルベルト空間の分離された位置へ、量子的特徴写像を通してデータをマッピングすることである。
我々は、明示的なアプローチと他の量子教師あり学習モデルとの本質的な接続を確立する。
論文 参考訳(メタデータ) (2020-10-25T18:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。