論文の概要: SCAR: A Characterization Scheme for Multi-Modal Dataset
- arxiv url: http://arxiv.org/abs/2508.19659v1
- Date: Wed, 27 Aug 2025 08:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.553139
- Title: SCAR: A Characterization Scheme for Multi-Modal Dataset
- Title(参考訳): SCAR:マルチモーダルデータセットのキャラクタリゼーションスキーム
- Authors: Ri Su, Zhao Chen, Caleb Chen Cao, Nan Tang, Lei Chen,
- Abstract要約: 基礎モデルは、様々なタスクにまたがる顕著な一般化を示し、主にトレーニングデータの特徴によって駆動される。
プルーニングや圧縮のような最近のデータ中心の手法は、トレーニングを最適化することを目的としているが、データ特性が一般化にどう影響するかに関する理論的な知見は限られている。
データセットの固有の構造特性を特徴付けるための原則的スキームであるSCARを紹介する。
- 参考スコア(独自算出の注目度): 12.906460823872749
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models exhibit remarkable generalization across diverse tasks, largely driven by the characteristics of their training data. Recent data-centric methods like pruning and compression aim to optimize training but offer limited theoretical insight into how data properties affect generalization, especially the data characteristics in sample scaling. Traditional perspectives further constrain progress by focusing predominantly on data quantity and training efficiency, often overlooking structural aspects of data quality. In this study, we introduce SCAR, a principled scheme for characterizing the intrinsic structural properties of datasets across four key measures: Scale, Coverage, Authenticity, and Richness. Unlike prior data-centric measures, SCAR captures stable characteristics that remain invariant under dataset scaling, providing a robust and general foundation for data understanding. Leveraging these structural properties, we introduce Foundation Data-a minimal subset that preserves the generalization behavior of the full dataset without requiring model-specific retraining. We model single-modality tasks as step functions and estimate the distribution of the foundation data size to capture step-wise generalization bias across modalities in the target multi-modal dataset. Finally, we develop a SCAR-guided data completion strategy based on this generalization bias, which enables efficient, modality-aware expansion of modality-specific characteristics in multimodal datasets. Experiments across diverse multi-modal datasets and model architectures validate the effectiveness of SCAR in predicting data utility and guiding data acquisition. Code is available at https://github.com/McAloma/SCAR.
- Abstract(参考訳): 基礎モデルは、様々なタスクにまたがる顕著な一般化を示し、主にトレーニングデータの特徴によって駆動される。
プルーニングや圧縮のような最近のデータ中心の手法は、トレーニングを最適化することを目的としているが、データ特性が一般化、特にサンプルスケーリングにおけるデータ特性にどう影響するかに関する限定的な理論的洞察を提供する。
従来の視点は、データ量とトレーニングの効率に主に焦点を合わせ、しばしばデータ品質の構造的な側面を見渡すことによって、進歩をさらに制限します。
そこで本研究では,スケール,カバレッジ,認証,リッチネスの4つの主要な尺度にまたがって,データセットの固有の構造特性を特徴付けるための原則的スキームであるSCARを紹介する。
従来のデータ中心の測度とは異なり、SCARはデータセットのスケーリングの下で不変のままである安定した特性をキャプチャし、データ理解のための堅牢で一般的な基盤を提供する。
これらの構造的特性を活用することで、モデル固有の再トレーニングを必要とせず、完全なデータセットの一般化挙動を保った最小限のサブセットであるFoundation Dataを導入する。
我々は,単一モダリティタスクをステップ関数としてモデル化し,基礎データサイズの分布を推定し,目的とするマルチモーダルデータセットにおけるモダリティ間のステップワイズ一般化バイアスを捉える。
最後に、この一般化バイアスに基づくSCAR誘導データ補完戦略を開発し、マルチモーダルデータセットにおけるモダリティ特異的特性の効率的かつモダリティを考慮した拡張を可能にする。
多様なマルチモーダルデータセットとモデルアーキテクチャにわたる実験は、データユーティリティの予測とデータ取得の誘導におけるSCARの有効性を検証する。
コードはhttps://github.com/McAloma/SCAR.comで入手できる。
関連論文リスト
- Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。
複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。
混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T06:42:44Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。