論文の概要: Tensor-Efficient High-Dimensional Q-learning
- arxiv url: http://arxiv.org/abs/2511.03595v1
- Date: Wed, 05 Nov 2025 16:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.481529
- Title: Tensor-Efficient High-Dimensional Q-learning
- Title(参考訳): テンソル効率の高い高次元Q-ラーニング
- Authors: Junyi Wu, Dan Li,
- Abstract要約: 高次元強化学習は、大規模状態作用空間における複雑な計算と低いサンプル効率の課題に直面している。
本稿では,離散化された状態-作用空間上でのブロック座標降下の改善により,低ランクテンソル分解を向上するTEQLを提案する。
鍵となるイノベーションは、近似誤差と訪問に基づく高信頼度を組み合わせ、行動の優先順位を高い不確実性で優先順位付けする探索戦略である。
- 参考スコア(独自算出の注目度): 4.503747347543387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional reinforcement learning faces challenges with complex calculations and low sample efficiency in large state-action spaces. Q-learning algorithms struggle particularly with the curse of dimensionality, where the number of state-action pairs grows exponentially with problem size. While neural network-based approaches like Deep Q-Networks have shown success, recent tensor-based methods using low-rank decomposition offer more parameter-efficient alternatives. Building upon existing tensor-based methods, we propose Tensor-Efficient Q-Learning (TEQL), which enhances low-rank tensor decomposition via improved block coordinate descent on discretized state-action spaces, incorporating novel exploration and regularization mechanisms. The key innovation is an exploration strategy that combines approximation error with visit count-based upper confidence bound to prioritize actions with high uncertainty, avoiding wasteful random exploration. Additionally, we incorporate a frequency-based penalty term in the objective function to encourage exploration of less-visited state-action pairs and reduce overfitting to frequently visited regions. Empirical results on classic control tasks demonstrate that TEQL outperforms conventional matrix-based methods and deep RL approaches in both sample efficiency and total rewards, making it suitable for resource-constrained applications, such as space and healthcare where sampling costs are high.
- Abstract(参考訳): 高次元強化学習は、大規模状態作用空間における複雑な計算と低いサンプル効率の課題に直面している。
Q-ラーニングアルゴリズムは特に、状態-作用対の数が問題のサイズとともに指数関数的に増加する次元の呪いに苦しむ。
Deep Q-Networksのようなニューラルネットワークベースのアプローチは成功したが、最近の低ランク分解を用いたテンソルベースの手法はよりパラメータ効率の良い代替手段を提供する。
既存のテンソルベース手法に基づいて、離散化された状態-作用空間上でのブロック座標降下の改善による低ランクテンソル分解を向上し、新しい探索と正規化機構を取り入れたテンソル効率Q-Learning(TEQL)を提案する。
鍵となる革新は、近似誤差と訪問ベースの高信頼を組み合わせて、不確実性の高いアクションを優先順位付けし、無駄なランダムな探索を避ける探索戦略である。
さらに,頻度に基づくペナルティ用語を目的関数に組み込んで,訪問頻度の低い状態対の探索を奨励し,頻繁に訪れる地域への過度な適合を減らす。
古典的な制御タスクに関する実証的な結果は、TEQLが従来の行列ベースの手法や、サンプル効率と全報酬の両方において深いRLアプローチよりも優れており、サンプリングコストが高い空間や医療などのリソース制約されたアプリケーションに適していることを示している。
関連論文リスト
- Breaking Through Barren Plateaus: Reinforcement Learning Initializations for Deep Variational Quantum Circuits [21.491246867521053]
変分量子アルゴリズム(VQA)は、短期量子デバイスを活用可能なフレームワークとして注目されている。
VQAの有効性は、システムサイズや回路深さが増加するにつれて勾配が指数関数的に減少するいわゆるバレン高原問題によって制約されることが多い。
論文 参考訳(メタデータ) (2025-08-25T21:37:36Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - GranQ: Efficient Channel-wise Quantization via Vectorized Pre-Scaling for Zero-Shot QAT [2.510925330348642]
GranQは、効率的な事前スケーリング戦略を導入する新しいアクティベーション量子化フレームワークである。
CIFARとImageNetで、最先端のZSQメソッドを一貫して上回る。
提案手法は, CIFAR-100の3ビット設定において最大5.45%の精度を実現し, CIFAR-10の完全精度ベースラインを超えている。
論文 参考訳(メタデータ) (2025-03-24T04:44:21Z) - A Survey of Early Exit Deep Neural Networks in NLP [5.402030962296633]
ディープニューラルネットワーク(DNN)は、幅広いタスクにわたるアートパフォーマンスを実現するために、ますます大きくなっている。
高い計算要求により、リソース制約のあるアプリケーションには適さない。
初期のエグジット戦略は、適応推論を有効にすることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2025-01-13T20:08:52Z) - Towards Resource-Efficient Federated Learning in Industrial IoT for Multivariate Time Series Analysis [50.18156030818883]
異常と欠落したデータは、産業応用における厄介な問題を構成する。
ディープラーニングによる異常検出が重要な方向として現れている。
エッジデバイスで収集されたデータは、ユーザのプライバシを含む。
論文 参考訳(メタデータ) (2024-11-06T15:38:31Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Fast Hierarchical Learning for Few-Shot Object Detection [57.024072600597464]
転送学習アプローチは、最近、数ショット検出タスクで有望な結果を得た。
これらのアプローチは、ベース検出器の微調整による破滅的な忘れ込みの問題に悩まされる。
この作業における上記の問題に対処する。
論文 参考訳(メタデータ) (2022-10-10T20:31:19Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。