論文の概要: Improved Offline Reinforcement Learning via Quantum Metric Encoding
- arxiv url: http://arxiv.org/abs/2511.10187v1
- Date: Fri, 14 Nov 2025 01:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.73456
- Title: Improved Offline Reinforcement Learning via Quantum Metric Encoding
- Title(参考訳): 量子メトリックエンコーディングによるオフライン強化学習の改善
- Authors: Outongyi Lv, Yewei Yuan, Nana Liu,
- Abstract要約: 限られたサンプルを持つ強化学習(RL)は、現実世界の応用では一般的である。
量子メートル法(QME)を導入することで,限られたサンプルを扱う方法を考える。
この方法論では、RLフレームワークを元の状態と報酬に直接適用するのではなく、状態をよりコンパクトで意味のある表現に埋め込む。
- 参考スコア(独自算出の注目度): 0.39508022083907385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with limited samples is common in real-world applications. However, offline RL performance under this constraint is often suboptimal. We consider an alternative approach to dealing with limited samples by introducing the Quantum Metric Encoder (QME). In this methodology, instead of applying the RL framework directly on the original states and rewards, we embed the states into a more compact and meaningful representation, where the structure of the encoding is inspired by quantum circuits. For classical data, QME is a classically simulable, trainable unitary embedding and thus serves as a quantum-inspired module, on a classical device. For quantum data in the form of quantum states, QME can be implemented directly on quantum hardware, allowing for training without measurement or re-encoding. We evaluated QME on three datasets, each limited to 100 samples. We use Soft-Actor-Critic (SAC) and Implicit-Q-Learning (IQL), two well-known RL algorithms, to demonstrate the effectiveness of our approach. From the experimental results, we find that training offline RL agents on QME-embedded states with decoded rewards yields significantly better performance than training on the original states and rewards. On average across the three datasets, for maximum reward performance, we achieve a 116.2% improvement for SAC and 117.6% for IQL. We further investigate the $Δ$-hyperbolicity of our framework, a geometric property of the state space known to be important for the RL training efficacy. The QME-embedded states exhibit low $Δ$-hyperbolicity, suggesting that the improvement after embedding arises from the modified geometry of the state space induced by QME. Thus, the low $Δ$-hyperbolicity and the corresponding effectiveness of QME could provide valuable information for developing efficient offline RL methods under limited-sample conditions.
- Abstract(参考訳): 限られたサンプルを持つ強化学習(RL)は、現実世界の応用では一般的である。
しかし、この制約の下でのオフラインRL性能は、しばしば準最適である。
本稿では,QME(Quantum Metric Encoder)を導入することで,限られたサンプルを扱う方法を検討する。
この方法では、RLフレームワークを元の状態と報酬に直接適用するのではなく、よりコンパクトで有意義な表現に埋め込み、符号化の構造は量子回路にインスパイアされる。
古典的なデータでは、QMEは古典的にシミュレート可能で訓練可能なユニタリ埋め込みであり、古典的なデバイス上で量子インスパイアされたモジュールとして機能する。
量子状態の形での量子データの場合、QMEは量子ハードウェアに直接実装することができ、測定や再エンコーディングなしにトレーニングすることができる。
QMEを3つのデータセットで評価し,それぞれ100点に制限した。
我々は2つの有名なRLアルゴリズムであるSoft-Actor-Critic(SAC)とImplicit-Q-Learning(IQL)を用いて、我々のアプローチの有効性を実証する。
実験結果から,QME埋込状態でのオフラインRLエージェントのトレーニングは,元の状態や報酬のトレーニングよりも有意に優れた性能が得られることがわかった。
3つのデータセットの平均で、最大報酬パフォーマンスのために、SACが116.2%、IQLが117.6%改善しました。
さらに、RLトレーニングの有効性において重要な状態空間の幾何学的性質である、我々のフレームワークの$$$-hyperbolicityについて検討する。
QME埋め込み状態は、QMEによって誘導される状態空間の変形幾何学から、埋め込み後の改善が生じることを示唆している。
したがって、$$$-hyperbolicityの低い値とQMEの有効性は、限られたサンプル条件下で効率的なオフラインRL法を開発する上で貴重な情報を提供することができる。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Training Hybrid Deep Quantum Neural Network for Efficient Reinforcement Learning [3.753031740069576]
量子回路は、次元が指数関数的に増加するヒルベルト空間にデータを埋め込む。
量子回路を局所的に近似する有接サロゲートqtDNNを導入する。
我々は、連続制御強化学習のためのハイブリッドディープ量子ニューラルネットワークhDQNN-TD3を設計する。
論文 参考訳(メタデータ) (2025-03-12T07:12:02Z) - $ζ$-QVAE: A Quantum Variational Autoencoder utilizing Regularized Mixed-state Latent Representations [1.0687104237121408]
量子コンピューティングにおける大きな課題は、量子ハードウェアリソースが不足しているため、大規模な実世界のデータセットに適用することである。
古典的VAEのすべての機能を含む完全量子フレームワークである$zeta$-QVAEを提示する。
我々の結果は、$zeta$-QVAEが潜在空間の容量をよりよく活用する表現を学習していることを示している。
論文 参考訳(メタデータ) (2024-02-27T18:37:01Z) - Efficient quantum recurrent reinforcement learning via quantum reservoir
computing [3.6881738506505988]
量子強化学習(QRL)は、シーケンシャルな意思決定タスクを解決するためのフレームワークとして登場した。
本研究は、QRNNベースの量子長短期メモリ(QLSTM)を用いたQRLエージェントの構築により、この課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-13T22:18:38Z) - QKSAN: A Quantum Kernel Self-Attention Network [53.96779043113156]
量子カーネル法(Quantum Kernel Methods, QKM)のデータ表現能力とSAMの効率的な情報抽出能力を組み合わせた量子カーネル自己認識機構(Quantum Kernel Self-Attention Mechanism, QKSAM)を導入する。
量子カーネル自己保持ネットワーク(QKSAN)フレームワークは,DMP(Dederred Measurement Principle)と条件測定技術を巧みに組み込んだQKSAMに基づいて提案されている。
4つのQKSANサブモデルはPennyLaneとIBM Qiskitプラットフォームにデプロイされ、MNISTとFashion MNISTのバイナリ分類を実行する。
論文 参考訳(メタデータ) (2023-08-25T15:08:19Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Graph Neural Network Autoencoders for Efficient Quantum Circuit
Optimisation [69.43216268165402]
我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。
我々は、量子回路から有向非巡回グラフを構築し、そのグラフを符号化し、その符号化を用いてRL状態を表現する。
我々の手法は、非常に大規模なRL量子回路最適化に向けた最初の現実的な第一歩である。
論文 参考訳(メタデータ) (2023-03-06T16:51:30Z) - Unentangled quantum reinforcement learning agents in the OpenAI Gym [9.878032825414293]
量子RLの収束速度は古典的RLよりも優れていることを示す。
我々はOpenAI GymでLunarLanderのタスクを完了できる最初の量子RLエージェントを訓練する。
論文 参考訳(メタデータ) (2022-03-27T16:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。