論文の概要: Never Train from Scratch: Fair Comparison of Long-Sequence Models
Requires Data-Driven Priors
- arxiv url: http://arxiv.org/abs/2310.02980v2
- Date: Mon, 4 Dec 2023 16:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:57:47.512408
- Title: Never Train from Scratch: Fair Comparison of Long-Sequence Models
Requires Data-Driven Priors
- Title(参考訳): スクラッチから遠ざかる - データ駆動プライオリティを必要とするロングシーケンスモデルの比較
- Authors: Ido Amos, Jonathan Berant, Ankit Gupta
- Abstract要約: 標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
- 参考スコア(独自算出の注目度): 50.09675645981635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling long-range dependencies across sequences is a longstanding goal in
machine learning and has led to architectures, such as state space models, that
dramatically outperform Transformers on long sequences. However, these
impressive empirical gains have been by and large demonstrated on benchmarks
(e.g. Long Range Arena), where models are randomly initialized and trained to
predict a target label from an input sequence. In this work, we show that
random initialization leads to gross overestimation of the differences between
architectures and that pretraining with standard denoising objectives, using
$\textit{only the downstream task data}$, leads to dramatic gains across
multiple architectures and to very small gaps between Transformers and state
space models (SSMs). In stark contrast to prior works, we find vanilla
Transformers to match the performance of S4 on Long Range Arena when properly
pretrained, and we improve the best reported results of SSMs on the PathX-256
task by 20 absolute points. Subsequently, we analyze the utility of
previously-proposed structured parameterizations for SSMs and show they become
mostly redundant in the presence of data-driven initialization obtained through
pretraining. Our work shows that, when evaluating different architectures on
supervised tasks, incorporation of data-driven priors via pretraining is
essential for reliable performance estimation, and can be done efficiently.
- Abstract(参考訳): シーケンス間の長距離依存性のモデリングは機械学習の長年の目標であり、長いシーケンスでトランスフォーマーを劇的に上回る状態空間モデルのようなアーキテクチャへと導かれる。
しかし、これらの印象的な経験的利益は、モデルがランダムに初期化され、入力シーケンスからターゲットラベルを予測するために訓練されたベンチマーク(例えば、ロングレンジアリーナ)で大きく実証されてきた。
そこで本研究では,ランダム初期化は,$\textit{only the lower task data}$ を用いて,アーキテクチャ間の差異と標準的デノイジング目的の事前学習を大々的に過大評価し,複数のアーキテクチャにまたがる劇的な向上と,トランスフォーマと状態空間モデル(ssm)の間のギャップを極小にすることを示す。
従来の作業とは対照的に,Long Range ArenaにおけるS4の性能に適合するバニラトランスフォーマーが発見され,PathX-256タスクにおけるSSMの最高の報告結果を20絶対点改善する。
次に, 事前学習により得られたデータ駆動初期化の存在下で, 従来提案されていたSSMのパラメータ化の有用性を分析した。
本研究は,教師付きタスクで異なるアーキテクチャを評価する場合,事前学習によるデータ駆動前処理の導入が信頼性の高い性能推定に不可欠であり,効率的に実施可能であることを示す。
関連論文リスト
- ImageNet-RIB Benchmark: Large Pre-Training Datasets Don't Guarantee Robustness after Fine-Tuning [30.422932548359952]
我々は、新しい堅牢な微調整ベンチマーク ImageNet-RIB (Robustness Inheritance Benchmark) を導入する。
ベンチマークは関連するが、個別の(ダウンストリーム)タスクで構成されている。
連続学習法であるEWCとLwFは微調整後の堅牢性を維持していることがわかった。
論文 参考訳(メタデータ) (2024-10-28T22:33:22Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Large Pre-trained time series models for cross-domain Time series analysis tasks [20.228846068418765]
本稿では,事前学習中に最適なデータセット固有のセグメンテーション戦略を自動的に識別する,テクスタイディショナルセグメンテーションの新たな手法を提案する。
これにより、異なるダウンストリーム時系列分析タスクに微調整され、ゼロショット設定下では、LPTMはドメイン固有の最先端モデルと同等かそれ以上の性能を発揮する。
論文 参考訳(メタデータ) (2023-11-19T20:16:16Z) - A Transformer-based Framework For Multi-variate Time Series: A Remaining
Useful Life Prediction Use Case [4.0466311968093365]
本研究は,時系列予測のためのエンコーダ変換アーキテクチャに基づくフレームワークを提案する。
C-MAPPSベンチマークデータセットの4セットすべてに対して,提案手法の有効性を検証した。
機械寿命の初期段階と劣化経路のモデル認識を可能にするため, 新たな拡張窓手法が提案された。
論文 参考訳(メタデータ) (2023-08-19T02:30:35Z) - Structured State Space Models for In-Context Reinforcement Learning [30.189834820419446]
構造化状態空間列(S4)モデルは、最近、長距離シーケンスモデリングタスクにおいて最先端の性能を達成した。
隠れた状態を並列に初期化およびリセットできるS4の変種に対する修正を提案する。
変更したアーキテクチャはシーケンス長のTransformerよりも高速に動作し、単純なメモリベースのタスクでRNNよりもパフォーマンスがよいことを示す。
論文 参考訳(メタデータ) (2023-03-07T15:32:18Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。