論文の概要: Some Attention is All You Need for Retrieval
- arxiv url: http://arxiv.org/abs/2510.19861v1
- Date: Tue, 21 Oct 2025 22:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.41865
- Title: Some Attention is All You Need for Retrieval
- Title(参考訳): 検索に必要なのは何かの注意
- Authors: Felix Michalak, Steven Abreu,
- Abstract要約: ハイブリッドSSM-Transformerアーキテクチャにおける完全な機能分離を示す。
検索は自己注意層にのみ依存する。
この厳密な機能特化はハイブリッドアーキテクチャにおける冗長性の仮定に挑戦する。
- 参考スコア(独自算出の注目度): 1.1458853556386797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate complete functional segregation in hybrid SSM-Transformer architectures: retrieval depends exclusively on self-attention layers. Across RecurrentGemma-2B/9B and Jamba-Mini-1.6, attention ablation causes catastrophic retrieval failure (0% accuracy), while SSM layers show no compensatory mechanisms even with improved prompting. Conversely, sparsifying attention to just 15% of heads maintains near-perfect retrieval while preserving 84% MMLU performance, suggesting self-attention specializes primarily for retrieval tasks. We identify precise mechanistic requirements for retrieval: needle tokens must be exposed during generation and sufficient context must be available during prefill or generation. This strict functional specialization challenges assumptions about redundancy in hybrid architectures and suggests these models operate as specialized modules rather than integrated systems, with immediate implications for architecture optimization and interpretability.
- Abstract(参考訳): 本稿では,ハイブリッドSSM-Transformerアーキテクチャにおける完全な機能分離について述べる。
再帰性Gemma-2B/9B と Jamba-Mini-1.6 にまたがって、注意のアブレーションは破滅性検索障害(0%の精度)を引き起こすが、SSM 層はプロンプトの改善を伴っても補償機構を示さない。
逆に、わずか15%の頭部に注意を向けるだけで、84%のMMLU性能を維持しながらほぼ完全な検索を維持しており、自己注意は主に検索タスクに特化していることを示唆している。
針のトークンは生成時に露出しなければなりませんし、プリフィルや生成時に十分なコンテキストが利用できなければなりません。
この厳密な機能的特殊化は、ハイブリッドアーキテクチャにおける冗長性の仮定に挑戦し、これらのモデルは、アーキテクチャの最適化と解釈可能性に直ちに影響し、統合システムよりも特別なモジュールとして機能することを示唆している。
関連論文リスト
- ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - MAAM: A Lightweight Multi-Agent Aggregation Module for Efficient Image Classification Based on the MindSpore Framework [4.307728769243765]
我々はMindSporeフレームワークと統合された軽量アテンションアーキテクチャを提案する。
Multi-Agent Aggregation Module (MAAM) は3つの並列エージェントブランチを独立にパラメータ化してヘテロジニアスな特徴を抽出する。
MindSporeの動的計算グラフと演算子融合を用いて、MAAMはCIFAR-10データセット上で87.0%の精度を達成する。
論文 参考訳(メタデータ) (2025-04-18T09:19:07Z) - HER2 Expression Prediction with Flexible Multi-Modal Inputs via Dynamic Bidirectional Reconstruction [25.739068829471297]
本稿では,単一モードあるいは二重モードの入力を柔軟にサポートする適応的バイモーダル予測フレームワークを提案する。
設計はH&Eのみの精度を71.44%から94.25%に劇的に改善し、完全なデュアルモダリティ入力では95.09%、単一モダリティ条件では90.28%の信頼性を維持している。
論文 参考訳(メタデータ) (2025-04-12T11:24:06Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - DefectHunter: A Novel LLM-Driven Boosted-Conformer-based Code Vulnerability Detection Mechanism [3.9377491512285157]
DefectHunterは、Conformerメカニズムを利用した脆弱性識別のための革新的なモデルである。
このメカニズムは、畳み込みネットワークと自己意識を融合させ、局所的、位置的特徴とグローバル的、コンテンツに基づく相互作用の両方をキャプチャする。
論文 参考訳(メタデータ) (2023-09-27T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。