論文の概要: Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures
- arxiv url: http://arxiv.org/abs/2603.02874v1
- Date: Tue, 03 Mar 2026 11:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.766658
- Title: Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures
- Title(参考訳): Retrievit: トランスフォーマー,ステートスペースモデル,ハイブリッドアーキテクチャのコンテキスト内検索機能
- Authors: Georgios Pantazopoulos, Malvina Nikandrou, Ioannis Konstas, Alessandro Suglia,
- Abstract要約: 本研究では,トランスフォーマーとステートスペースモデルを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。
ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回り、あるいは上回ります。
- 参考スコア(独自算出の注目度): 47.30551127397794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers excel at in-context retrieval but suffer from quadratic complexity with sequence length, while State Space Models (SSMs) offer efficient linear-time processing but have limited retrieval capabilities. We investigate whether hybrid architectures combining Transformers and SSMs can achieve the best of both worlds on two synthetic in-context retrieval tasks. The first task, n-gram retrieval, requires the model to identify and reproduce an n-gram that succeeds the query within the input sequence. The second task, position retrieval, presents the model with a single query token and requires it to perform a two-hop associative lookup: first locating the corresponding element in the sequence, and then outputting its positional index. Under controlled experimental conditions, we assess data efficiency, length generalization, robustness to out of domain training examples, and learned representations across Transformers, SSMs, and hybrid architectures. We find that hybrid models outperform SSMs and match or exceed Transformers in data efficiency and extrapolation for information-dense context retrieval. However, Transformers maintain superiority in position retrieval tasks. Through representation analysis, we discover that SSM-based models develop locality-aware embeddings where tokens representing adjacent positions become neighbors in embedding space, forming interpretable structures. This emergent property, absent in Transformers, explains both the strengths and limitations of SSMs and hybrids for different retrieval tasks. Our findings provide principled guidance for architecture selection based on task requirements and reveal fundamental differences in how Transformers and SSMs, and hybrid models learn positional associations.
- Abstract(参考訳): 変換器はテキスト内検索に優れ、シーケンス長の2次複雑さに悩まされる一方、ステートスペースモデル(SSM)は効率的な線形時間処理を提供するが、検索能力は限られている。
本稿では,トランスフォーマーとSSMを組み合わせたハイブリッドアーキテクチャが,2つの合成インコンテキスト検索タスクにおいて両世界の長所を達成できるかどうかを考察する。
最初のタスクであるn-gram検索は、入力シーケンス内でクエリを継承するn-gramを識別して再生するモデルを必要とする。
第2のタスクである位置検索は、モデルを単一のクエリトークンで提示し、2つのホップ連想ルックアップを実行する必要がある。
制御された実験条件下では,データ効率,長さの一般化,ドメイントレーニングの例に対する堅牢性,トランスフォーマー,SSM,ハイブリッドアーキテクチャ間の表現の学習などを評価する。
ハイブリッドモデルはSSMを上回り、データ効率と情報深度コンテキスト検索のための外挿においてTransformerを上回り、あるいは上回ります。
しかし、トランスフォーマーは位置検索タスクにおいて優位性を維持している。
表現解析により,SSMに基づくモデルでは,隣接位置を表すトークンが埋め込み空間に隣接し,解釈可能な構造を形成するような局所性を考慮した埋め込みが発達することがわかった。
Transformersにはないこの創発性は、異なる検索タスクに対するSSMとハイブリッドの長所と短所の両方を説明する。
本研究は,タスク要求に基づくアーキテクチャ選択の原則的ガイダンスを提供し,トランスフォーマーとSSMの学習方法とハイブリッドモデルとの相違点を明らかにした。
関連論文リスト
- Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - Toward Relative Positional Encoding in Spiking Transformers [76.72869420863749]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかを模倣するバイオインスパイアネットワークである。
スパイクのバイナリ特性を保ちながら、スパイク変換器における相対的な位置エンコーディングを近似する戦略をいくつか導入する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。