論文の概要: Sparse Multi-Modal Transformer with Masking for Alzheimer's Disease Classification
- arxiv url: http://arxiv.org/abs/2512.14491v1
- Date: Tue, 16 Dec 2025 15:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.76352
- Title: Sparse Multi-Modal Transformer with Masking for Alzheimer's Disease Classification
- Title(参考訳): アルツハイマー病分類のためのマスキング付きスパースマルチモーダルトランス
- Authors: Cheng-Han Lu, Pei-Hsuan Tsai,
- Abstract要約: トランスフォーマーベースのマルチモーダルインテリジェントシステムは、密集した自己注意による高い計算とエネルギーコストに悩まされることが多い。
本稿では,効率とロバスト性の向上を目的としたスパースマルチモーダルトランスアーキテクチャSMMTを提案する。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based multi-modal intelligent systems often suffer from high computational and energy costs due to dense self-attention, limiting their scalability under resource constraints. This paper presents SMMT, a sparse multi-modal transformer architecture designed to improve efficiency and robustness. Building upon a cascaded multi-modal transformer framework, SMMT introduces cluster-based sparse attention to achieve near linear computational complexity and modality-wise masking to enhance robustness against incomplete inputs. The architecture is evaluated using Alzheimer's Disease classification on the ADNI dataset as a representative multi-modal case study. Experimental results show that SMMT maintains competitive predictive performance while significantly reducing training time, memory usage, and energy consumption compared to dense attention baselines, demonstrating its suitability as a resource-aware architectural component for scalable intelligent systems.
- Abstract(参考訳): トランスフォーマーベースのマルチモーダルインテリジェントシステムは、リソース制約下でのスケーラビリティを制限し、密集した自己注意による高い計算とエネルギーコストに悩まされることが多い。
本稿では,効率とロバスト性の向上を目的としたスパースマルチモーダルトランスアーキテクチャSMMTを提案する。
SMMTは、カスケード型マルチモーダルトランスフォーマーフレームワークを基盤として、クラスタベースのスパースアテンションを導入し、線形計算複雑性とモダリティワイドマスキングに近づき、不完全入力に対する堅牢性を高める。
このアーキテクチャは、ADNIデータセット上のアルツハイマー病分類を用いて、代表的マルチモーダルケーススタディとして評価される。
実験の結果,SMMTはトレーニング時間,メモリ使用量,エネルギー消費量を高密度の注意ベースラインと比較して有意に削減し,拡張性のあるインテリジェントシステムにおいて資源に配慮したアーキテクチャコンポーネントとして適性を示すとともに,競争力のある予測性能を維持していることがわかった。
関連論文リスト
- Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers [59.472505916020936]
コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。
現代変圧器におけるユニモーダルICLの原理を再考する。
メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
論文 参考訳(メタデータ) (2026-01-28T17:37:28Z) - MSD-KMamba: Bidirectional Spatial-Aware Multi-Modal 3D Brain Segmentation via Multi-scale Self-Distilled Fusion Strategy [15.270952880303533]
本稿では,新しい3次元マルチモーダル画像分割フレームワークMSD-KMambaを提案する。
双方向の空間知覚とマルチスケールの自己蒸留を統合している。
我々のフレームワークは、セグメンテーション精度、ロバスト性、一般化における最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-28T06:34:01Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - BrainSymphony: A Transformer-Driven Fusion of fMRI Time Series and Structural Connectivity [2.3486335708866606]
BrainSymphonyは、ニューロイメージングのための軽量でパラメータ効率の良い基礎モデルである。
かなり小さなパブリックデータセットで事前トレーニングされた状態で、最先端のパフォーマンスを実現する。
BrainSymphonyは、アーキテクチャを意識したマルチモーダルモデルがより大きなモデルを上回る可能性があることを証明している。
論文 参考訳(メタデータ) (2025-06-23T06:00:21Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - A Low-Complexity Plug-and-Play Deep Learning Model for Massive MIMO Precoding Across Sites [5.896656636095934]
MMIMO技術は、スペクトル効率とネットワーク容量を向上させることで、無線通信を変革した。
本稿では,既存のアプローチの複雑性問題に対処するための,新しいディープラーニングベースのmMIMOプリコーダを提案する。
論文 参考訳(メタデータ) (2025-02-12T20:02:36Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis [0.0]
マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
提案するGSIFNは,これらの問題を解決するために2つの主成分を組み込んでいる。
これはInterlaced Mask機構を採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-27T06:44:28Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。