論文の概要: CAST: Collapse-Aware multi-Scale Topology Fusion for Multimodal Coreset Selection
- arxiv url: http://arxiv.org/abs/2605.11705v1
- Date: Tue, 12 May 2026 07:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.684668
- Title: CAST: Collapse-Aware multi-Scale Topology Fusion for Multimodal Coreset Selection
- Title(参考訳): CAST:マルチモーダルコアセット選択のためのマルチスケールトポロジー融合
- Authors: Boran Zhao, Hetian Liu, Zhenxian Hu, Yuqing Yuan, Yu Yan, Pengju Ren,
- Abstract要約: マルチモーダルコアセット選択のためのCollapse-Aware Multi-Scale Topology fusion frameworkを提案する。
まず、画像とテキストのモダリティのトポロジを構築し、局所的なコラプス認識とクロスモーダル融合による統一トポロジを導出する。
次に、拡散ウェーブレット領域にマルチスケール分布マッチング基準を導入し、コアセットが元のデータセットを複数のスケールで近似することを奨励する。
- 参考スコア(独自算出の注目度): 8.275673045109079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of large multimodal models fundamentally relies on massive image-text datasets, which inevitably incur prohibitive computational overhead. Dataset selection offers a promising paradigm by identifying a highly informative coreset. However, existing approaches suffer from two critical limitations: (i) single-modality-dominated sampling methods, which ignore the fine-grained cross-modal information imbalance inherent in multimodal datasets and thus lead to semantic loss in the other modality; and (ii) coarse-grained sample-scoring-based sampling methods, where the selected coreset tends to be biased toward the scoring model, making it difficult to guarantee distributional equivalence between the coreset and the original dataset. Meanwhile, existing distribution matching and discrete sampling strategies often fail to jointly account for global semantic structure, local fine-grained details, and redundancy-aware coverage in dense regions. To this end, we propose CAST, a Collapse-Aware multi-Scale Topology fusion framework for multimodal coreset selection. We first construct image- and text-modality topologies, and derive a unified topology via local-collapse-aware refinement and cross-modal fusion. We then introduce a multi-scale distribution matching criterion in the diffusion wavelet domain, encouraging the coreset to approximate the original dataset at multiple scales. Finally, we introduce a local soft relational coverage mechanism that extends pure geometric coverage to relation-aware indirect coverage, penalizing redundant selections in dense clusters. Extensive experiments on Flickr30K and MS-COCO show that CAST outperforms existing dataset selection baselines, showcasing great superiority in cross-architecture generalization and energy efficiency over state-of-the-art multimodal synthesis methods.
- Abstract(参考訳): 大規模なマルチモーダルモデルのトレーニングは、基本的には大量の画像テキストデータセットに依存しており、必然的に不規則な計算オーバーヘッドを発生させる。
データセットの選択は、非常に有意義なコアセットを特定することによって、有望なパラダイムを提供する。
しかし、既存のアプローチには2つの限界がある。
一 マルチモーダルデータセットに固有の微粒なクロスモーダル情報の不均衡を無視し、それによって他のモーダルのセマンティックな損失をもたらす単モーダル支配サンプリング方法
(II) 粗粒試料抽出法では, 選択されたコアセットがスコアリングモデルに偏りやすい傾向にあり, コアセットと元のデータセットとの分布同値性を保証することが困難である。
一方、既存の分布マッチングと離散サンプリング戦略は、大域的な意味構造、局所的なきめ細かい詳細、密度の高い地域での冗長性を考慮したカバレッジを共同で説明できないことが多い。
そこで我々は,マルチモーダルコアセット選択のためのCAST(Collapse-Aware Multi-Scale Topology fusion framework)を提案する。
まず、画像とテキストのモダリティのトポロジを構築し、局所的なコラプス認識とクロスモーダル融合による統一トポロジを導出する。
次に、拡散ウェーブレット領域にマルチスケール分布マッチング基準を導入し、コアセットが元のデータセットを複数のスケールで近似することを奨励する。
最後に, 局所的ソフトリレーショナルカバレッジ機構を導入し, 純幾何学的カバレッジを関係認識間接カバレッジに拡張し, 密集クラスタにおける冗長な選択をペナルライズする。
Flickr30KとMS-COCOの大規模な実験により、CASTは既存のデータセット選択ベースラインより優れており、最先端のマルチモーダル合成法よりもクロスアーキテクチャの一般化とエネルギー効率が優れていることが示された。
関連論文リスト
- PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - Towards One-for-All Anomaly Detection for Tabular Data [87.63505963517512]
タブラル異常検出(TAD)は多くの実世界の応用において重要である。
複数のソースデータセットに対して1回のトレーニングのみを必要とするフレームワークであるOFA-TADを提案する。
14ドメインの34のデータセットに対する実験により、OFA-TADはより優れた異常検出性能が得られることが示された。
論文 参考訳(メタデータ) (2026-03-15T14:42:05Z) - UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。