Fugu-MT 論文翻訳(概要): From Generalization Analysis to Optimization Designs for State Space Models

論文の概要: From Generalization Analysis to Optimization Designs for State Space Models

arxiv url: http://arxiv.org/abs/2405.02670v1
Date: Sat, 4 May 2024 13:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 19:01:15.135520
Title: From Generalization Analysis to Optimization Designs for State Space Models
Title（参考訳）: 一般化解析から状態空間モデルへの最適化設計へ
Authors: Fusheng Liu, Qianxiao Li,
Abstract要約: 状態空間モデル (SSM) は時系列解析の基礎モデルである。一般化結果に基づく学習アルゴリズムの改良を提案する。
参考スコア（独自算出の注目度）: 14.932318540666547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A State Space Model (SSM) is a foundation model in time series analysis, which has recently been shown as an alternative to transformers in sequence modeling. In this paper, we theoretically study the generalization of SSMs and propose improvements to training algorithms based on the generalization results. Specifically, we give a \textit{data-dependent} generalization bound for SSMs, showing an interplay between the SSM parameters and the temporal dependencies of the training sequences. Leveraging the generalization bound, we (1) set up a scaling rule for model initialization based on the proposed generalization measure, which significantly improves the robustness of the output value scales on SSMs to different temporal patterns in the sequence data; (2) introduce a new regularization method for training SSMs to enhance the generalization performance. Numerical results are conducted to validate our results.
Abstract（参考訳）: 状態空間モデル(英: State Space Model, SSM)は、時系列解析における基礎モデルであり、最近、シーケンシャルモデリングにおけるトランスフォーマーの代替として示されている。本稿では,SSMの一般化を理論的に研究し,一般化結果に基づく学習アルゴリズムの改良を提案する。具体的には、SSM に対して \textit{data-dependent} の一般化を与え、SSM パラメータとトレーニングシーケンスの時間的依存との間の相互作用を示す。一般化バウンダリを利用して,(1)提案した一般化尺度に基づいてモデル初期化のスケーリングルールを設定し,SSMの出力値スケールのロバスト性を大幅に向上させるとともに,SSMをトレーニングするための新たな正規化手法を導入し,一般化性能を向上させる。結果を検証するために, 数値計算を行った。

関連論文リスト

Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。本研究では,時間領域毎に最適な因果予測値が得られることを示す。合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文参考訳（メタデータ） (2025-06-21T14:05:37Z)
Algorithm- and Data-Dependent Generalization Bounds for Score-Based Generative Models [27.78637798976204]
スコアベース生成モデル(SGM)は、生成モデルの最も一般的なクラスの一つである。本稿では,SGMのためのアルゴリズムおよびデータ依存分析法を提案する。特に、学習アルゴリズムのダイナミクスを説明し、SGMの振る舞いに関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-06-04T11:33:04Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文参考訳（メタデータ） (2025-05-24T14:53:07Z)
Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T13:50:36Z)
Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention [2.8998926117101367]
状態空間モデル(SSM)は、シーケンスモデリングタスクのためのトランスフォーマーの魅力的な代替品として登場した。本稿では,マンバモデルの背後にあるコアアーキテクチャコンポーネントである選択SSMの理論的一般化分析について述べる。
論文参考訳（メタデータ） (2025-02-03T16:05:31Z)
On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。正規言語タスクにおける表現性や長さの一般化性能を解析する。本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文参考訳（メタデータ） (2024-12-26T20:53:04Z)
Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文参考訳（メタデータ） (2024-12-15T15:04:35Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Autocorrelation Matters: Understanding the Role of Initialization Schemes for State Space Models [14.932318540666547]
状態空間モデル(SSM)パラメータを初期化する現在の手法は、HiPPOフレームワークに依存している。入力シーケンスの自己相関を考慮し、SSMスキームの役割を更に検討する。 SSM状態行列の固有値の虚部がSSM最適化問題の条件付けを決定することを示す。
論文参考訳（メタデータ） (2024-11-29T03:55:19Z)
LLM-TS Integrator: Integrating LLM for Enhanced Time Series Modeling [5.853711797849859]
天気予報や異常検出などの動的システムでは時系列モデリングが不可欠である。近年,大規模言語モデル(LLM)をTSモデリングに利用し,その強力なパターン認識機能を活用している。
論文参考訳（メタデータ） (2024-10-21T20:29:46Z)
SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文参考訳（メタデータ） (2024-05-27T17:53:32Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文参考訳（メタデータ） (2024-03-25T16:10:47Z)
Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文参考訳（メタデータ） (2023-12-19T21:45:38Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文参考訳（メタデータ） (2022-10-10T16:07:24Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Posterior Differential Regularization with f-divergence for Improving Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。後微分正則化を$f$-divergencesの族に一般化する。実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文参考訳（メタデータ） (2020-10-23T19:58:01Z)
Elastic Consistency: A General Consistency Model for Distributed Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文参考訳（メタデータ） (2020-01-16T16:10:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。