論文の概要: Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.07889v1
- Date: Sun, 08 Feb 2026 09:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.853931
- Title: Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるVQVAEとファジィクラスタリングによる効率的なアンチサーベイ
- Authors: Long Chen, Yinkui Liu, Shen Li, Bo Tang, Xuemin Hu,
- Abstract要約: Pseudo-countは、オフライン強化学習(RL)において、状態-作用ペアを数えることによる効果的な反探索手法である。
既存の反探索法は、これらのデータを離散化することで連続した状態-作用対をカウントするが、しばしば次元的災害や情報損失の問題に悩まされる。
本稿では,ベクトル量子化変分オートエンコーダ(VQVAE)とファジィクラスタリングに基づく新しいアンチサーベイ手法を提案する。
- 参考スコア(独自算出の注目度): 14.04169447103753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pseudo-count is an effective anti-exploration method in offline reinforcement learning (RL) by counting state-action pairs and imposing a large penalty on rare or unseen state-action pair data. Existing anti-exploration methods count continuous state-action pairs by discretizing these data, but often suffer from the issues of dimension disaster and information loss in the discretization process, leading to efficiency and performance reduction, and even failure of policy learning. In this paper, a novel anti-exploration method based on Vector Quantized Variational Autoencoder (VQVAE) and fuzzy clustering in offline RL is proposed. We first propose an efficient pseudo-count method based on the multi-codebook VQVAE to discretize state-action pairs, and design an offline RL anti-exploitation method based on the proposed pseudo-count method to handle the dimension disaster issue and improve the learning efficiency. In addition, a codebook update mechanism based on fuzzy C-means (FCM) clustering is developed to improve the use rate of vectors in codebooks, addressing the information loss issue in the discretization process. The proposed method is evaluated on the benchmark of Datasets for Deep Data-Driven Reinforcement Learning (D4RL), and experimental results show that the proposed method performs better and requires less computing cost in multiple complex tasks compared to state-of-the-art (SOTA) methods.
- Abstract(参考訳): Pseudo-countは、オフライン強化学習(RL)において、状態-作用ペアを数え、稀な状態-作用ペアデータに大きなペナルティを課すことにより、効果的な反探索法である。
既存の反探索法は、これらのデータを離散化することで連続した状態-作用対をカウントするが、しばしば離散化プロセスにおける次元的災害と情報損失の問題に悩まされ、効率と性能の低下、さらには政策学習の失敗に至る。
本稿では,Vector Quantized Variational Autoencoder(VQVAE)とファジィクラスタリングを用いたオフラインRLにおける新しいアンチサーベイ手法を提案する。
まず,マルチコードVQVAEをベースとした効率的な擬似カウント手法を提案し,提案手法に基づくオフラインRL解答法を設計し,次元災害問題に対処し,学習効率を向上させる。
さらに、ファジィC平均(FCM)クラスタリングに基づくコードブック更新機構を開発し、符号ブックにおけるベクトルの使用率を改善し、離散化プロセスにおける情報損失問題に対処する。
提案手法は,Deep Data-Driven Reinforcement Learning (D4RL) のためのデータセットのベンチマークで評価され,実験結果から,複数の複雑なタスクにおいて,最新技術 (SOTA) に比べて性能が良く,計算コストも低いことが示された。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Rec-AD: An Efficient Computation Framework for FDIA Detection Based on Tensor Train Decomposition and Deep Learning Recommendation Model [9.222461989780735]
深層学習モデルは、スマートグリッドにおけるFalse Data Injection Attack(FDIA)検出に広く採用されている。
本稿では、列車分解と深層学習勧告モデル(DLRM)を統合する計算効率の良いフレームワークRec-ADを提案する。
PyTorchと完全に互換性があるため、Rec-ADはコード修正なしで既存のFDIA検出システムに統合できる。
論文 参考訳(メタデータ) (2025-07-19T15:38:56Z) - Behavioral Anomaly Detection in Distributed Systems via Federated Contrastive Learning [0.8906214436849201]
目標は、データプライバシ、ノードの不均一性、異常パターン認識という観点で、従来の集中型アプローチの制限を克服することにある。
提案手法は,フェデレート学習の分散協調モデリング機能と,コントラスト学習の特徴識別強化を併用する。
ローカルノードに埋め込み表現を構築し、正と負のサンプルペアを構築して、より差別的な特徴空間を学ぶモデルを導く。
論文 参考訳(メタデータ) (2025-06-24T02:04:44Z) - Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Unsupervised feature selection via self-paced learning and low-redundant
regularization [6.083524716031565]
自己評価学習とサブスペース学習の枠組みを統合することにより,教師なしの特徴選択を提案する。
この手法の収束性は理論的および実験的に証明される。
実験の結果,提案手法はクラスタリング法の性能を向上し,他の比較アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T08:28:19Z) - FDDH: Fast Discriminative Discrete Hashing for Large-Scale Cross-Modal
Retrieval [41.125141897096874]
クロスモーダルハッシュはその有効性と効率性に好まれる。
既存のほとんどのメソッドは、ハッシュコードを学ぶ際に意味情報の識別力を十分に利用していない。
大規模クロスモーダル検索のためのFDDH(Fast Discriminative Discrete Hashing)手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T03:53:48Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。