Fugu-MT 論文翻訳(概要): Convergence of Gradient-based MAML in LQR

論文の概要: Convergence of Gradient-based MAML in LQR

arxiv url: http://arxiv.org/abs/2309.06588v1
Date: Tue, 12 Sep 2023 20:24:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 16:10:04.919114
Title: Convergence of Gradient-based MAML in LQR
Title（参考訳）: LQRにおける勾配型MAMLの収束性
Authors: Negin Musavi and Geir E. Dullerud
Abstract要約: 本研究の目的は,システム2次最適 (LQR) に適用した場合のMAML (Modelagnostic Meta-learning) の局所収束特性を検討することである。この研究は、LQRにおけるMAMLの収束を示すための単純な数値結果も提示する。
参考スコア（独自算出の注目度）: 1.2328446298523066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The main objective of this research paper is to investigate the local convergence characteristics of Model-agnostic Meta-learning (MAML) when applied to linear system quadratic optimal control (LQR). MAML and its variations have become popular techniques for quickly adapting to new tasks by leveraging previous learning knowledge in areas like regression, classification, and reinforcement learning. However, its theoretical guarantees remain unknown due to non-convexity and its structure, making it even more challenging to ensure stability in the dynamic system setting. This study focuses on exploring MAML in the LQR setting, providing its local convergence guarantees while maintaining the stability of the dynamical system. The paper also presents simple numerical results to demonstrate the convergence properties of MAML in LQR tasks.
Abstract（参考訳）: 本研究の目的は,線形系2次最適制御(lqr)に適用されるモデル非依存メタラーニング(maml)の局所収束特性を検討することである。 MAMLとそのバリエーションは、回帰、分類、強化学習といった分野における過去の学習知識を活用することで、新しいタスクに迅速に適応するための一般的な技術となっている。しかし、その理論的保証は非凸性と構造のため未知のままであり、動的システム設定における安定性の確保がさらに困難である。本研究は, 動的システムの安定性を維持しつつ, 局所収束保証を提供するLQR設定におけるMAMLの探索に焦点を当てた。また,LQRタスクにおけるMAMLの収束特性を示すため,単純な数値計算結果も提示する。

関連論文リスト

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Generative QoE Modeling: A Lightweight Approach for Telecom Networks [6.473372512447993]
本研究では,計算効率,解釈可能性,予測精度のバランスをとる軽量な生成モデリングフレームワークを提案する。ベクトル量子化(VQ)を前処理技術として用いることにより、連続的なネットワーク機能は事実上離散的な分類記号に変換される。このVQ-HMMパイプラインは、新しい未知のデータに対する確率的推論をサポートしながら、動的QoEパターンをキャプチャするモデルの能力を高める。
論文参考訳（メタデータ） (2025-04-30T06:19:37Z)
Network Resource Optimization for ML-Based UAV Condition Monitoring with Vibration Analysis [54.550658461477106]
条件監視(CM)は機械学習(ML)モデルを使用して異常および異常な条件を識別する。本研究では,MLベースのUAV CMフレームワークにおけるネットワークリソースの最適化について検討する。次元削減技術を活用することで、ネットワークリソース消費の99.9%が削減される。
論文参考訳（メタデータ） (2025-02-21T14:36:12Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文参考訳（メタデータ） (2024-07-08T17:09:39Z)
Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文参考訳（メタデータ） (2024-05-29T17:02:49Z)
Meta-Learning Linear Quadratic Regulators: A Policy Gradient MAML Approach for Model-free LQR [4.787550557970832]
LQR問題に対する政策勾配に基づくメタラーニング(MAML)アプローチの安定性とパーソナライズ保証を特徴付ける。我々の理論的保証は、学習したコントローラが見えないLQRタスクに効率的に適応できることを示しています。
論文参考訳（メタデータ） (2024-01-25T21:59:52Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文参考訳（メタデータ） (2021-12-30T18:21:53Z)
MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文参考訳（メタデータ） (2021-06-29T12:52:26Z)
Performance-Weighed Policy Sampling for Meta-Reinforcement Learning [1.77898701462905]
強化モデル非依存メタラーニング(E-MAML)は、少数のトレーニング例からポリシー関数の高速収束を生成する。 E-MAMLは、以前のタスクの環境で学んだ一連のポリシーパラメータを保持する。 E-MAMLを強化学習(RL)ベースのオンラインフォールトトレラント制御スキームの開発に適用する。
論文参考訳（メタデータ） (2020-12-10T23:08:38Z)
Learning the Linear Quadratic Regulator from Nonlinear Observations [135.66883119468707]
我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。本設定では, 線形力学と二次的コストを有する低次元連続潜伏状態によって環境を要約する。本結果は,システムモデルと一般関数近似における未知の非線形性を持つ連続制御のための,最初の証明可能なサンプル複雑性保証である。
論文参考訳（メタデータ） (2020-10-08T07:02:47Z)
Learning to Learn Kernels with Variational Random Features [118.09565227041844]
メタラーニングフレームワークにランダムなフーリエ機能を持つカーネルを導入し、その強力な数ショット学習能力を活用する。変分推論問題としてメタVRFの最適化を定式化する。 MetaVRFは、既存のメタ学習方法に比べて、はるかに優れた、少なくとも競争力のあるパフォーマンスを提供します。
論文参考訳（メタデータ） (2020-06-11T18:05:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。