論文の概要: MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation
- arxiv url: http://arxiv.org/abs/2603.18676v1
- Date: Thu, 19 Mar 2026 09:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.065146
- Title: MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation
- Title(参考訳): MANAR: ナビゲーション抽象概念表現によるメモリ拡張アテンション
- Authors: Zuher Jahshan, Ben Ben Ishay, Leonid Yavits,
- Abstract要約: コンテキスト化層は標準のマルチヘッドアテンションを一般化する。
ManARの概念的なアドレスは、入力トークンの外側に確実に横たわる表現を合成する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MANAR (Memory-augmented Attention with Navigational Abstract Conceptual Representation), contextualization layer generalizes standard multi-head attention (MHA) by instantiating the principles of Global Workspace Theory (GWT). While MHA enables unconstrained all-to-all communication, it lacks the functional bottleneck and global integration mechanisms hypothesized in cognitive models of consciousness. MANAR addresses this by implementing a central workspace through a trainable memory of abstract concepts and an Abstract Conceptual Representation (ACR). The architecture follows a two-stage logic that maps directly to GWT mechanics: (i) an integration phase, where retrieved memory concepts converge to form a collective "mental image" (the ACR) based on input stimuli; and (ii) a broadcasting phase, where this global state navigates and informs the contextualization of individual local tokens. We demonstrate that efficient linear-time scaling is a fundamental architectural byproduct of instantiating GWT functional bottleneck, as routing global information through a constant-sized ACR resolves the quadratic complexity inherent in standard attention. MANAR is a compatible re-parameterization of MHA with identical semantic roles for its projections, enabling knowledge transfer from pretrained transformers via weight-copy and thus overcoming the adoption barriers of structurally incompatible linear-time alternatives. MANAR enables non-convex contextualization, synthesizing representations that provably lie outside the convex hull of input tokens - a mathematical reflection of the creative synthesis described in GWT. Empirical evaluations confirm that MANAR matches or exceeds strong baselines across language (GLUE score of 85.1), vision (83.9% ImageNet-1K), and speech (2.7% WER on LibriSpeech), positioning it as an efficient and expressive alternative to quadratic attention.
- Abstract(参考訳): MANAR(Memory-augmented Attention with Navigational Abstract Conceptual Representation)は、GWT(Global Workspace Theory)の原則をインスタンス化することによって、標準的なマルチヘッドアテンション(MHA)を一般化する。
MHAは、制約のないオール・ツー・オールコミュニケーションを可能にするが、意識の認知モデルにおいて仮定される機能的ボトルネックとグローバルな統合メカニズムは欠如している。
MANARは抽象概念のトレーニング可能なメモリと抽象概念表現(ACR)を通じて中央ワークスペースを実装することでこの問題に対処する。
アーキテクチャはGWTのメカニックに直接マップする2段階のロジックに従っている。
一 検索した記憶概念が収束して入力刺激に基づく集合的「精神イメージ」(ACR)を形成する統合段階
二 このグローバルな状態が個々のローカルトークンのコンテキスト化をナビゲートし、通知する放送フェーズ。
我々は,GWTの機能的ボトルネックをインスタンス化する上で,効率的な線形時間スケーリングが基本的なアーキテクチャ上の副産物であることを実証した。
MANARは、その射影に同じ意味的役割を持つMHAの再パラメータ化であり、事前訓練されたトランスフォーマーからのウェイトコピーによる知識伝達を可能にし、構造的に非互換な線形時間代替案の採用障壁を克服する。
MANARは非凸文脈化を可能にし、入力トークンの凸殻の外側に確実に置かれる表現(GWTで記述された創造的な合成の数学的反映)を合成する。
経験的評価では、MANARは言語間の強いベースライン(GLUEスコア85.1)、ビジョン(83.9%)、スピーチ(2.7% WER on LibriSpeech)と一致し、2次的注意に対する効率的で表現力のある代替品として位置づけられている。
関連論文リスト
- PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning [61.753025885751036]
本稿では,3つのタスクにまたがる異種視点を融合する視覚言語モデルの能力を評価するEgo-to-Worldベンチマークを提案する。
我々は,2段階のフレームワークであるCoRLを提案し,チェイン・オブ・ソート(Chain-of-Thought)を教師付き微調整と強化学習を組み合わせた。
我々は、CoRLが、推論と知覚グラウンドのメトリクスの両方において、強力なプロプライエタリおよびオープンソースベースラインを一貫して超越していることを示します。
論文 参考訳(メタデータ) (2026-03-16T04:27:53Z) - Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion [14.538534837583931]
Retrieval-Augmented Generation (RAG)は、外部知識を取り入れることで、LLMの幻覚を効果的に緩和する。
本稿では,認知記憶過程をシミュレートするRAGフレームワークであるCogitoRAGを提案する。
CogitoRAGは最先端のRAG手法よりも優れており、複雑な知識の統合や推論において優れた能力を示している。
論文 参考訳(メタデータ) (2026-02-11T12:58:08Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning [56.24016465596292]
視覚的メタファーは、抽象概念をインパクトのある視覚的レトリックに変換するために、クロスドメインなセマンティックフュージョンを用いて、人間の創造性の高階形式を構成する。
本稿では,参照画像から「創造的本質」を自律的に分離し,その抽象論理をユーザ特定対象に再物質化する,視覚メタファー伝達(VMT)の課題を紹介する。
提案手法は, メタファーの整合性, アナロジーの適切性, 視覚的創造性においてSOTAのベースラインを著しく上回り, 広告・メディアにおける高度にインパクトのある創造的アプリケーションを自動化するための道を開いた。
論文 参考訳(メタデータ) (2026-02-01T17:01:36Z) - Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over Edge Networks [63.541114376141735]
大規模言語モデル(LLM)は、さまざまなアプリケーションシナリオにまたがってインテリジェントな機能を提供しながら、急速に普及しています。
しかし、彼らの共同シナリオにおける実践的なデプロイは、プライバシの脆弱性、通信オーバーヘッド、計算ボトルネックといった根本的な課題に直面します。
我々はフェデレート・アテンション(FedAttn)を提案し、フェデレーション・パラダイムを自己注意機構に統合する。
論文 参考訳(メタデータ) (2025-11-04T15:14:58Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。