論文の概要: Chimera: State Space Models Beyond Sequences
- arxiv url: http://arxiv.org/abs/2510.12111v1
- Date: Tue, 14 Oct 2025 03:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.172744
- Title: Chimera: State Space Models Beyond Sequences
- Title(参考訳): Chimera: シークエンスを越えたステートスペースモデル
- Authors: Aakash Lahoti, Tanya Marwah, Ratish Puduppully, Albert Gu,
- Abstract要約: 我々は,データトポロジを直接原理的に組み込む統一モデルであるChimeraを紹介した。
実験の結果,Chimeraは言語,視覚,グラフ領域で高い性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 24.260038296273553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based deep learning methods have become the standard approach for modeling diverse data such as sequences, images, and graphs. These methods rely on self-attention, which treats data as an unordered set of elements. This ignores the neighborhood structure or graph topology of the data and requires inductive biases--such as position embeddings in sequences and images, or random walks in graphs--to incorporate topology. However, designing such task-specific biases requires significant effort and can introduce side effects that hinder generalization. We introduce Chimera, a unified model that directly incorporates data topology in a principled way, removing the need for domain-specific biases. The key idea is that state space models--which naturally do not require position embeddings--can be generalized to capture any graph topology. Our experiments show that Chimera achieves strong performance across language, vision, and graph domains, outperforming BERT on GLUE by 0.7 points, ViT on ImageNet-1k by 2.6%, and all baselines on the Long Range Graph Benchmark. We further propose algorithmic optimizations to improve Chimera's efficiency: (1) for Directed Acyclic Graphs, Chimera can be implemented as a linear-time recurrence; (2) for general graphs, a simple mathematical relaxation achieves Transformer's quadratic complexity without domain-specific heuristics. These results validate Chimera's core contribution and support the idea that data topology is a powerful inductive bias across modalities.
- Abstract(参考訳): トランスフォーマーに基づくディープラーニング手法は、シーケンス、画像、グラフなどの多様なデータをモデリングする標準的な手法となっている。
これらの手法は、データを順序のない要素の集合として扱う自己アテンションに依存している。
これはデータの近傍構造やグラフトポロジを無視し、帰納的バイアスを必要とする。
しかし、そのようなタスク固有のバイアスを設計するにはかなりの努力が必要であり、一般化を妨げる副作用をもたらす可能性がある。
我々は、データトポロジを直接原則的に組み込む統一モデルであるChimeraを紹介し、ドメイン固有のバイアスの必要性を取り除く。
鍵となる考え方は、状態空間モデル — 自然に位置埋め込みを必要としない — は、グラフトポロジーを捉えるために一般化できるということである。
実験の結果,Chimeraは言語,視覚,グラフ領域で高い性能を示し,GLUEではBERTが0.7ポイント,ImageNet-1kではViTが2.6%,Long Range Graph Benchmarkではベースラインがすべて向上した。
さらに, キメラの効率向上のためのアルゴリズム最適化を提案する。(1) 有向非巡回グラフに対して, チメラは線形時間再帰として実装できる; (2) 一般グラフに対して, 単純な数学的緩和は, ドメイン固有のヒューリスティックを伴わずにトランスフォーマーの二次的複雑性を達成できる。
これらの結果はキメラのコアコントリビューションを検証し、データトポロジはモダリティにまたがる強力な帰納的バイアスであるという考えを支持する。
関連論文リスト
- Equivariance Everywhere All At Once: A Recipe for Graph Foundation Models [13.053266613831447]
ノードレベルのタスクのためのグラフ基盤モデルを第一原理から設計するためのレシピを提案する。
本研究の基盤となる重要な要素は,グラフ基盤モデルが尊重すべき対称性を体系的に調査することである。
我々は29の実世界のノード分類データセットに関する広範な実験を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-17T08:05:08Z) - Scalable Graph Generative Modeling via Substructure Sequences [50.32639806800683]
本稿では,グラフ生成用トランスフォーマー事前学習フレームワークである生成グラフパターンマシン(G$2$PM)を紹介する。
G$2$PMはグラフインスタンス(ノード、エッジ、グラフ全体)をサブ構造のシーケンスとして表現する。
それは、一般化可能かつ伝達可能な表現を学ぶために、シーケンスに関する生成的事前学習を採用する。
論文 参考訳(メタデータ) (2025-05-22T02:16:34Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Graph Generation with Diffusion Mixture [57.78958552860948]
グラフの生成は、非ユークリッド構造の複雑な性質を理解する必要がある実世界のタスクにとって大きな課題である。
本稿では,拡散過程の最終グラフ構造を明示的に学習することにより,グラフのトポロジーをモデル化する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-07T17:07:46Z) - Learning to Learn Graph Topologies [27.782971146122218]
ノードデータからグラフ構造へのマッピングを学習する(L2O)。
このモデルは、ノードデータとグラフサンプルのペアを使ってエンドツーエンドでトレーニングされる。
合成データと実世界のデータの両方の実験により、我々のモデルは、特定のトポロジ特性を持つグラフを学習する際の古典的反復アルゴリズムよりも効率的であることが示された。
論文 参考訳(メタデータ) (2021-10-19T08:42:38Z) - Pseudoinverse Graph Convolutional Networks: Fast Filters Tailored for
Large Eigengaps of Dense Graphs and Hypergraphs [0.0]
Graph Convolutional Networks (GCNs) は、グラフベースのデータセットで半教師付き分類を行うツールとして成功している。
本稿では,三部フィルタ空間が高密度グラフを対象とする新しいGCN変種を提案する。
論文 参考訳(メタデータ) (2020-08-03T08:48:41Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。