論文の概要: LARGO: Low-Rank Hypernetwork for Handling Missing Modalities
- arxiv url: http://arxiv.org/abs/2605.06086v1
- Date: Thu, 07 May 2026 12:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.750464
- Title: LARGO: Low-Rank Hypernetwork for Handling Missing Modalities
- Title(参考訳): LARGO:失われたモダリティを扱うための低ランクハイパーネットワーク
- Authors: Niels Vyncke, Pooya Ashtari, Aleksandra Pižurica,
- Abstract要約: LARGOは,2N-1ドルの専用モダリティモデルを1つのネットワークに圧縮するハイパーネットワークである。
我々の手法は52構成のうち47位にランクインし、最先端のベースラインよりも平均的な+0.68$%$と+2.53$%$を達成している。
avMNISTにおける概念実証実験は、ARGOが医療画像を超えて異種非医学的モダリティにまで拡張する可能性を示唆している。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Addressing missing modalities is an important challenge in multimodal image analysis and often relies on complex architectures that do not transfer easily to different datasets without architectural modifications or hyperparameter tuning. While most existing methods tackle this problem in feature space by engineering representations that are robust to missing inputs, we instead operate in weight space. We propose LARGO, a hypernetwork that compresses the $2^N-1$ dedicated missing-modality models into a single network by modelling the convolutional weights using the Canonical Polyadic (CP) tensor decomposition. Extensive experimental validation on BraTS 2018 (4 modalities, 15 scenarios) and ISLES 2022 (3 modalities, 7 scenarios) shows that our method ranks first in 47 out of 52 configurations, achieving average Dice improvements of +0.68$\%$ and +2.53$\%$ over state-of-the-art baselines (mmFormer, M$^{3}$AE, ShaSpec, SimMLM). A proof-of-concept experiment on avMNIST suggests that LARGO may extend beyond medical imaging to heterogeneous non-medical modalities.
- Abstract(参考訳): 欠落したモダリティに対処することは、マルチモーダル画像解析において重要な課題であり、しばしばアーキテクチャ修正やハイパーパラメータチューニングなしでは、異なるデータセットに簡単に転送できない複雑なアーキテクチャに依存している。
既存のほとんどの手法は、不足する入力に対して堅牢なエンジニアリング表現によって特徴空間におけるこの問題に対処するが、代わりに重み空間で運用する。
我々は、Canonical Polyadic (CP) テンソル分解を用いて畳み込み重みをモデル化することにより、2^N-1$の欠損モードモデルを1つのネットワークに圧縮する超ネットワーク LARGO を提案する。
BraTS 2018 (4つのモード、15のシナリオ) と ISLES 2022 (3つのモード、7のシナリオ) の大規模な実験的検証により、我々のメソッドは52の構成のうち47にランクインし、最先端ベースライン(mmFormer、M$^{3}$AE、ShaSpec、SimMLM)に対する平均Diceの改善を達成している。
avMNISTにおける概念実証実験は、ARGOが医療画像を超えて異種非医学的モダリティにまで拡張する可能性を示唆している。
関連論文リスト
- Linearizing Vision Transformer with Test-Time Training [54.52616866374482]
事前訓練されたトランスフォーマーからウェイトを継承することは、魅力的なショートカットを提供するが、ソフトマックスと線形アテンションの基本的な表現的ギャップは、効果的なウェイト転送を妨げている。
テスト時間トレーニング(TTT)は2層動的定式化がSoftmaxの注意と構造的に一致している線形複雑アーキテクチャである。
安定拡散3.5を線形化して、SD3.5-T$5$(Transformer to Test Time Training)を導入することで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2026-05-04T16:16:26Z) - $M^3-Verse$: A "Spot the Difference" Challenge for Large Multimodal Models [26.923709172476958]
マルチモーダル,マルチステート,マルチ次元ベンチマークであるM3-Verse$を紹介した。
これは、状態変化の前と後の屋内シーンを多視点で観察する、ペア化されたビデオの上に構築されている。
我々は16の最先端LMMを評価し、状態遷移の追跡における限界を観察する。
論文 参考訳(メタデータ) (2025-12-21T13:50:26Z) - Multimodal Federated Learning With Missing Modalities through Feature Imputation Network [9.384737026881504]
マルチモーダル・フェデレート・ラーニングは、生データを共有せずに複数のソースからモデルを協調的に訓練する大きな可能性を秘めている。
従来の手法は一般的に、欠落したモダリティを補うために、一般に利用可能な実際のデータセットや合成データに依存していた。
欠落したモダリティのボトルネック特徴を再構築するための,軽量で低次元な特徴変換器を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:11:03Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking [11.334577756093923]
我々はデータセット構築パイプラインを提案し、MELのための大規模データセットであるM3EL$を発行する。
M3EL$には79,625のインスタンスが含まれ、9つの多様なマルチモーダルタスクと5つのトピックが含まれている。
我々のデータセットはこれらの問題に効果的に対処し、$textitCLIP_textitND$モデルに$M3EL$を微調整すると精度が大幅に向上する。
論文 参考訳(メタデータ) (2024-10-08T10:52:23Z) - Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。
これらのモデルをHuberRegressorでアンサンブルします。
これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文 参考訳(メタデータ) (2022-11-20T17:25:26Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。