論文の概要: SequenceLayers: Sequence Processing and Streaming Neural Networks Made Easy
- arxiv url: http://arxiv.org/abs/2507.23292v1
- Date: Thu, 31 Jul 2025 07:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.217054
- Title: SequenceLayers: Sequence Processing and Streaming Neural Networks Made Easy
- Title(参考訳): SequenceLayers: シーケンス処理とストリーミングニューラルネットワークが簡単に
- Authors: RJ Skerry-Ryan, Julian Salazar, Soroosh Mariooryad, David Kao, Daisy Stanton, Eric Battenberg, Matt Shannon, Ron J. Weiss, Robin Scheibler, Jonas Rothfuss, Tom Bagby,
- Abstract要約: シーケンスモデリングのためのニューラルネットワーク層APIとライブラリを導入する。
レイヤは、時間とともに状態の明示的な表現を定義します。
ストリーミングおよび並列シーケンス処理の両方で発生する、幅広い共通バグを軽減します。
- 参考スコア(独自算出の注目度): 30.496958740993957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a neural network layer API and library for sequence modeling, designed for easy creation of sequence models that can be executed both layer-by-layer (e.g., teacher-forced training) and step-by-step (e.g., autoregressive sampling). To achieve this, layers define an explicit representation of their state over time (e.g., a Transformer KV cache, a convolution buffer, an RNN hidden state), and a step method that evolves that state, tested to give identical results to a stateless layer-wise invocation. This and other aspects of the SequenceLayers contract enables complex models to be immediately streamable, mitigates a wide range of common bugs arising in both streaming and parallel sequence processing, and can be implemented in any deep learning library. A composable and declarative API, along with a comprehensive suite of layers and combinators, streamlines the construction of production-scale models from simple streamable components while preserving strong correctness guarantees. Our current implementations of SequenceLayers (JAX, TensorFlow 2) are available at https://github.com/google/sequence-layers.
- Abstract(参考訳): ニューラルネットワークレイヤAPIとシーケンスモデリングのためのライブラリを導入し、レイヤー・バイ・レイヤ(例えば教師強化トレーニング)とステップ・バイ・ステップ(例えば自己回帰サンプリング)の両方で実行できるシーケンスモデルを簡単に作成できるように設計した。
これを実現するために、レイヤはその状態の明示的な表現(例えば、Transformer KVキャッシュ、畳み込みバッファ、RNN隠蔽状態)と、ステートを進化させるステップメソッドを定義し、ステートレスなレイヤ単位の呼び出しと同じ結果を与えるようにテストする。
SequenceLayers契約のこのその他の側面は、複雑なモデルを即座にストリーミング可能とし、ストリーミングおよび並列シーケンス処理の両方で発生する幅広い共通バグを軽減し、ディープラーニングライブラリで実装することができる。
構成可能で宣言的なAPIと、包括的なレイヤとコンビネータのスイートは、単純なストリーム可能なコンポーネントからプロダクションスケールモデルの構築を合理化するとともに、強い正確性を保証する。
SequenceLayers (JAX, TensorFlow 2)の現在の実装はhttps://github.com/google/sequence-layersで公開されています。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Iterative Filter Pruning for Concatenation-based CNN Architectures [9.651318927588934]
現代の物体検出器は、連結を伴う高度に相互接続された畳み込み層を有する。
本稿では,畳み込み層間の接続グラフに基づいて,連結層を扱う手法を提案する。
FPGAとNVIDIA Jetson Xavier AGXにプルーンドモデルをデプロイする。
論文 参考訳(メタデータ) (2024-05-04T19:40:42Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。
我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。
本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-02T17:50:54Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - From Discrete to Continuous Convolution Layers [14.41405579899976]
離散層から連続畳み込み層への共通Conv層の一般化を提案する。
CC層は、フィルタをサブピクセル座標上の学習された連続関数として表現することで、自然にConv層を拡張する。
これにより,任意のサイズの機能マップを動的かつ一貫したスケールで,学習可能かつ原則的に再サイズすることが可能になります。
論文 参考訳(メタデータ) (2020-06-19T13:16:06Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。