論文の概要: $Δ$-AttnMask: Attention-Guided Masked Hidden States for Efficient Data Selection and Augmentation
- arxiv url: http://arxiv.org/abs/2508.09199v1
- Date: Fri, 08 Aug 2025 13:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.607589
- Title: $Δ$-AttnMask: Attention-Guided Masked Hidden States for Efficient Data Selection and Augmentation
- Title(参考訳): $Δ$-AttnMask: 効率的なデータ選択と拡張のための注意誘導型隠れ状態
- Authors: Jucheng Hu, Suorong Yang, Dongzhan Zhou,
- Abstract要約: 視覚インストラクションファインタニング(VIF)は、訓練後の視覚言語モデル(VLM)において重要である
VIFはまた、共同で視覚とテキストの理解を可能にするためにマルチモーダルデータを必要とする。
$Delta$-AttnMaskは、モデルの隠れ状態の注意誘導マスキングを通じてサンプル品質を定量化する。
$Delta$-AttnMaskは20%のデータで最先端のパフォーマンスを実現し、トレーニングを5倍に加速し、全データセットベースラインを+10.1%の精度で上回っている。
- 参考スコア(独自算出の注目度): 1.9911692005669095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Instruction Finetuning (VIF) is pivotal for post-training Vision-Language Models (VLMs). Unlike unimodal instruction finetuning in plain-text large language models, which mainly requires instruction datasets to enable model instruction-following ability, VIF also requires multimodal data to enable joint visual and textual understanding; therefore, it typically requires more data. Consequently, VIF imposes stricter data selection challenges: the method must scale efficiently to handle larger data demands while ensuring the quality of both visual and textual content, as well as their alignment. Despite its critical impact on performance, data selection for VIF remains an understudied area. In this paper, we propose $\Delta$-AttnMask. This data-efficient framework quantifies sample quality through attention-guided masking of the model's hidden states, jointly evaluating image-text pairs without requiring domain labels, auxiliary models, or extra training. By computing loss differences ($\Delta$) between the original states and states masked using high-attention regions, $\Delta$-AttnMask intrinsically assesses sample quality. Experiments across multiple VLMs and datasets show that $\Delta$-AttnMask achieves state-of-the-art performance with just 20% of data, accelerating training by 5x while surpassing full-dataset baselines by +10.1% in overall accuracy. Its model-agnostic and data-agnostic design ensures broad applicability across modalities and architectures.
- Abstract(参考訳): 視覚インストラクションファインタニング(VIF)は、訓練後の視覚言語モデル(VLM)において重要である。
平文の大規模言語モデルでは、主にモデル命令追従機能を実現するために命令データセットを必要とするユニモーダル命令微調整とは異なり、VIFは視覚とテキストの同時理解を可能にするためにマルチモーダルデータも必要である。
その結果、VIFはより厳密なデータ選択の課題を課す: この方法は、視覚的およびテキスト的コンテンツの品質とアライメントを確保しながら、より大きなデータ要求を処理するために、効率的にスケールする必要がある。
性能に重大な影響があるにもかかわらず、VIFのデータ選択は未調査領域である。
本稿では,$\Delta$-AttnMaskを提案する。
このデータ効率のフレームワークは、モデルの隠れ状態の注意誘導マスキングを通じてサンプルの品質を定量化し、ドメインラベル、補助モデル、余分なトレーニングを必要とせずに、画像とテキストのペアを共同評価する。
高アテンション領域でマスクされた元の状態と状態の損失差($\Delta$)を計算することで、$\Delta$-AttnMaskは本質的にサンプルの品質を評価する。
複数のVLMとデータセットにわたる実験によると、$\Delta$-AttnMaskは、データの20%で最先端のパフォーマンスを実現し、トレーニングを5倍加速し、全体の精度は+10.1%向上した。
そのモデルに依存しないデータに依存しない設計は、モダリティやアーキテクチャにまたがる幅広い適用性を保証する。
関連論文リスト
- Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。
クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。
一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文 参考訳(メタデータ) (2025-06-10T04:04:58Z) - D2AF: A Dual-Driven Annotation and Filtering Framework for Visual Grounding [36.321156992727055]
D2AFは、入力画像のみを使用して視覚的な接地を行うための堅牢なアノテーションフレームワークである。
二重駆動型アノテーション戦略を実装することにより、詳細な領域テキストペアを効果的に生成する。
以上の結果から,データ量の増加がモデル性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-05-30T09:04:47Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。