論文の概要: ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation
- arxiv url: http://arxiv.org/abs/2511.08263v1
- Date: Wed, 12 Nov 2025 01:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.725185
- Title: ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation
- Title(参考訳): ImagebindDC: Imagebindベースの凝縮によるマルチモーダルデータの圧縮
- Authors: Yue Min, Shaobo Wang, Jiaze Li, Tianle Niu, Junxin Fan, Yongliang Miao, Lijin Yang, Linfeng Zhang,
- Abstract要約: ImageBindDCは、ImageBindの統一された機能空間内で動作する、新しいデータ凝縮フレームワークである。
我々のアプローチは、強力な特徴関数(CF)損失を利用することで、従来の分散マッチングを超えています。
実験では、ImageBindDC:のNYU-v2データセットの有効性を強調している。
- 参考スコア(独自算出の注目度): 12.924585390383085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data condensation techniques aim to synthesize a compact dataset from a larger one to enable efficient model training, yet while successful in unimodal settings, they often fail in multimodal scenarios where preserving intricate inter-modal dependencies is crucial. To address this, we introduce ImageBindDC, a novel data condensation framework operating within the unified feature space of ImageBind. Our approach moves beyond conventional distribution-matching by employing a powerful Characteristic Function (CF) loss, which operates in the Fourier domain to facilitate a more precise statistical alignment via exact infinite moment matching. We design our objective to enforce three critical levels of distributional consistency: (i) uni-modal alignment, which matches the statistical properties of synthetic and real data within each modality; (ii) cross-modal alignment, which preserves pairwise semantics by matching the distributions of hybrid real-synthetic data pairs; and (iii) joint-modal alignment, which captures the complete multivariate data structure by aligning the joint distribution of real data pairs with their synthetic counterparts. Extensive experiments highlight the effectiveness of ImageBindDC: on the NYU-v2 dataset, a model trained on just 5 condensed datapoints per class achieves lossless performance comparable to one trained on the full dataset, achieving a new state-of-the-art with an 8.2\% absolute improvement over the previous best method and more than 4$\times$ less condensation time.
- Abstract(参考訳): データ凝縮技術は、より大規模なデータセットを合成して、効率的なモデルトレーニングを実現することを目的としているが、単調な設定で成功しても、複雑なモジュール間の依存関係を保存することが不可欠であるマルチモーダルシナリオでは失敗することが多い。
そこで我々は,ImageBindの統一機能空間内で動作する新しいデータ凝縮フレームワークであるImageBindDCを紹介する。
提案手法は, フーリエ領域で動作し, 正確な無限モーメントマッチングによるより正確な統計アライメントを容易にする強力な特徴関数(CF)損失を用いることにより, 従来の分布マッチングを超越する。
分布整合性の3つの重要なレベルを強制する目的を設計する。
(i)各モダリティ内の合成データ及び実データの統計的性質に一致する一様アライメント
(ii)ハイブリッド実合成データペアの分布を一致させることにより、ペアのセマンティクスを保存するクロスモーダルアライメント、及び
三 実データ対の結合分布を合成データ対と整合させることにより、完全多変量データ構造を捉える共同モーダルアライメント。
大規模な実験では、ImageBindDCの有効性を強調している。NYU-v2データセットでは、クラス毎に5つの凝縮データポイントでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルに匹敵する損失のないパフォーマンスを達成する。
関連論文リスト
- DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文 参考訳(メタデータ) (2025-05-26T18:55:14Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - SynergyAmodal: Deocclude Anything with Text Control [27.027748040959025]
画像の隠蔽は、画像の隠蔽されたインスタンスの見えない領域(e, shape, appearance)を復元することを目的としている。
In-theld amodal データセットを包括的形状と外観アノテーションで共合成する新しいフレームワーク SynergyAmodal を提案する。
論文 参考訳(メタデータ) (2025-04-28T06:04:17Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Data-iterative Optimization Score Model for Stable Ultra-Sparse-View CT
Reconstruction [2.2336243882030025]
スパースビューCT再構成のための反復最適化データスコアリングモデル(DOSM)を提案する。
DOSMはデータの一貫性をデータ一貫性要素に統合し、測定データと生成モデルの制約を効果的にバランスさせる。
我々はDOSM更新の最適化に従来の手法を活用している。
論文 参考訳(メタデータ) (2023-08-28T09:23:18Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。