論文の概要: A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.14178v2
- Date: Sun, 26 Jan 2025 16:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 20:37:55.566955
- Title: A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning
- Title(参考訳): Few-Shot強化学習のための非構造化データ生成のための分布認識フローマッチング
- Authors: Mohammad Pivezhandi, Abusayeed Saifullah,
- Abstract要約: 数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
- 参考スコア(独自算出の注目度): 1.0709300917082865
- License:
- Abstract: Generating realistic and diverse unstructured data is a significant challenge in reinforcement learning (RL), particularly in few-shot learning scenarios with limited data availability. Traditional RL methods often rely on real data for exploration, which can be time-consuming and inefficient. In this paper, we introduce a distribution-aware flow matching approach designed to generate synthetic unstructured data, specifically tailored for the few-shot RL application of Dynamic Voltage and Frequency Scaling (DVFS) on embedded processors. Our method leverages the flow matching algorithm as a sample-efficient generative model and incorporates bootstrapping techniques to enhance latent space diversity and generalization. Additionally, we apply feature weighting using Random Forests to prioritize critical features, improving the precision of the generated synthetic data. Our approach addresses key challenges in traditional model-based RL, such as overfitting and data correlation, while aligning with the principles of the Law of Large Numbers to support empirical consistency and policy improvement as the number of samples increases. We validate our approach through extensive experimentation on a DVFS application for low-energy processing. Results demonstrate that our method achieves stable convergence in terms of maximum Q-value while enhancing frame rates by 30\% in the initial timestamps. These improvements make the proposed RL model more efficient in resource-constrained environments.
- Abstract(参考訳): 現実的で多様な非構造化データを生成することは、強化学習(RL)において重要な課題である。
従来のRL法は、しばしば探索に実際のデータに依存するが、それは時間がかかり非効率である。
本稿では,DVFS(Dynamic voltage and Frequency Scaling)を組込みプロセッサに適用した数ショットのRLアプリケーションに適した,合成非構造化データを生成するための分散型フローマッチング手法を提案する。
本手法は,フローマッチングアルゴリズムをサンプル効率のよい生成モデルとして利用し,遅延空間の多様性と一般化を高めるブートストラップ手法を取り入れた。
さらに、ランダムフォレストを用いた特徴量重み付けを適用し、重要な特徴を優先順位付けし、生成した合成データの精度を向上させる。
提案手法は,サンプル数の増加に伴い,経験的整合性および政策改善をサポートするために,大規模法則の原則と整合しながら,過剰適合やデータ相関などの従来のモデルベースRLにおける重要な課題に対処する。
低エネルギー処理のためのDVFSアプリケーション上で広範囲な実験を行い,本手法の有効性を検証した。
提案手法は,初期タイムスタンプのフレームレートを30倍に高めながら,最大Q値で安定した収束を実現することを示す。
これらの改善により、リソース制約のある環境で提案されたRLモデルはより効率的になる。
関連論文リスト
- Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning [0.0]
パティオ時間予測は、輸送システム、物流、サプライチェーン管理など、様々な分野において重要な役割を担っている。
本稿では,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:11:53Z) - Advancing Enterprise Spatio-Temporal Forecasting Applications: Data Mining Meets Instruction Tuning of Language Models For Multi-modal Time Series Analysis in Low-Resource Settings [0.0]
パティオ時間予測は輸送、物流、サプライチェーン管理において重要である。
本稿では,従来の予測手法の強みと小言語モデルの命令チューニングを融合した動的マルチモーダル手法を提案する。
我々のフレームワークは、推論速度とデータプライバシ/セキュリティを維持しながら、計算とメモリの要求を低減したオンプレミスのカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-08-24T16:32:58Z) - Borrowing Strength in Distributionally Robust Optimization via Hierarchical Dirichlet Processes [35.53901341372684]
提案手法は正規化推定,分布的ロバストな最適化,階層ベイズモデリングを統一する。
階層的ディリクレプロセス(HDP)を用いることで、マルチソースデータを効果的に処理する。
数値実験により,予測精度とパラメータ推定精度の両方の改善と安定化におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2024-05-21T19:03:09Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Federated Ensemble Model-based Reinforcement Learning in Edge Computing [21.840086997141498]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための分散機械学習パラダイムである。
モデルベースRLとアンサンブル知識蒸留をFLに効果的に組み込む新しいFRLアルゴリズムを提案する。
具体的には、FLと知識蒸留を利用して、クライアント向けの動的モデルのアンサンブルを作成し、環境と相互作用することなく、単にアンサンブルモデルを使用することでポリシーを訓練する。
論文 参考訳(メタデータ) (2021-09-12T16:19:10Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。