論文の概要: Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models
- arxiv url: http://arxiv.org/abs/2603.08859v1
- Date: Mon, 09 Mar 2026 19:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.79521
- Title: Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models
- Title(参考訳): ハイブリッドシーケンスモデルに対する表現性-効率トレードオフ
- Authors: John Cooper, Ilias Diakonikolas, Mingchen Ma, Frederic Sala,
- Abstract要約: 非ハイブリッドモデルに対する基本的な制限の存在を証明する。
我々は,これらの課題を確実に解決する,小さなサイズと作業メモリのハイブリッドモデルを構築した。
さらに,ハイブリッドモデルが非ハイブリッドモデルよりも長大化および分布外堅牢性を示すことを示す。
- 参考スコア(独自算出の注目度): 50.45915413315706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid sequence models--combining Transformer and state-space model layers--seek to gain the expressive versatility of attention as well as the computational efficiency of state-space model layers. Despite burgeoning interest in hybrid models, we lack a basic understanding of the settings where--and underlying mechanisms through which--they offer benefits over their constituent models. In this paper, we study this question, focusing on a broad family of core synthetic tasks. For this family of tasks, we prove the existence of fundamental limitations for non-hybrid models. Specifically, any Transformer or state-space model that solves the underlying task requires either a large number of parameters or a large working memory. On the other hand, for two prototypical tasks within this family--namely selective copying and associative recall--we construct hybrid models of small size and working memory that provably solve these tasks, thus achieving the best of both worlds. Our experimental evaluation empirically validates our theoretical findings. Importantly, going beyond the settings in our theoretical analysis, we empirically show that learned--rather than constructed--hybrids outperform non-hybrid models with up to 6x as many parameters. We additionally demonstrate that hybrid models exhibit stronger length generalization and out-of-distribution robustness than non-hybrids.
- Abstract(参考訳): ハイブリッドシーケンスモデル - Transformer と State-space モデルを組み合わせて - 注意力の表現力と状態空間モデル層の計算効率を得る。
ハイブリッドモデルへの急激な関心にもかかわらず、我々は設定の基本的な理解が欠如しています。
本稿では,この課題を,コア合成タスクの幅広いファミリーに焦点をあてて検討する。
このようなタスクの族に対して、非ハイブリッドモデルに対する基本的な制限の存在を証明します。
具体的には、基礎となるタスクを解決するトランスフォーマーまたはステートスペースモデルには、大量のパラメータまたは大きなワーキングメモリが必要である。
一方、このファミリー内の2つの原型的タスク、すなわち、選択的コピーと連想的リコールは、これらのタスクを確実に解決する、小さなサイズと作業記憶のハイブリッドモデルを構築し、両方の世界のベストを達成します。
実験による評価は理論的な知見を実証的に検証する。
重要なことは、理論解析における設定を超えて、我々は、構築されたものよりも学習されたものが、最大6倍のパラメータを持つ非ハイブリッドモデルより優れていることを実証的に示すことである。
さらに,ハイブリッドモデルが非ハイブリッドモデルよりも長大化および分布外堅牢性を示すことを示す。
関連論文リスト
- Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - Hybrid Quantum-inspired Resnet and Densenet for Pattern Recognition [1.0499611180329804]
パターン認識のための適応的残差と高密度接続を有する2つのハイブリッド量子インスピレーションニューラルネットワークを提案する。
量子に着想を得た層における正弦関数と正弦関数による勾配爆発を防止するために,我々のハイブリッドモデルの潜在的な優位性を示す。
論文 参考訳(メタデータ) (2024-03-09T01:34:26Z) - Learning Hybrid Interpretable Models: Theory, Taxonomy, and Methods [0.0]
ハイブリッドモデルは解釈可能なモデルと複雑なブラックボックスの協調を含む。
古典的モデルに対するそのようなモデルの利点は2倍である。
システムの透明性のレベルをユーザが正確にコントロールできる。
論文 参考訳(メタデータ) (2023-03-08T08:35:29Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。