論文の概要: Devil in the Number: Towards Robust Multi-modality Data Filter
- arxiv url: http://arxiv.org/abs/2309.13770v1
- Date: Sun, 24 Sep 2023 22:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:43:30.771919
- Title: Devil in the Number: Towards Robust Multi-modality Data Filter
- Title(参考訳): デビル・イン・ザ・ナンバー:ロバストなマルチモダリティデータフィルタに向けて
- Authors: Yichen Xu, Zihan Xu, Wenhao Chai, Zhonghan Zhao, Enxin Song, Gaoang
Wang
- Abstract要約: T-MARSは、画像中のテキストを検出してマスキングし、CLIPスコアでフィルタリングすることで、高品質なデータフィルタリングを実現する。
テキストの内容に含まれる数字などの冗長な情報のかなりの割合を観察する。
提案するテキストマスキングフィルタは,データの上位40%を選択する際に,元のCLIPスコアフィルタよりも優れている。
- 参考スコア(独自算出の注目度): 12.33356004550808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to appropriately filter multi-modality data sets on a web-scale, it
becomes crucial to employ suitable filtering methods to boost performance and
reduce training costs. For instance, LAION papers employs the CLIP score filter
to select data with CLIP scores surpassing a certain threshold. On the other
hand, T-MARS achieves high-quality data filtering by detecting and masking text
within images and then filtering by CLIP score. Through analyzing the dataset,
we observe a significant proportion of redundant information, such as numbers,
present in the textual content. Our experiments on a subset of the data unveil
the profound impact of these redundant elements on the CLIP scores. A logical
approach would involve reevaluating the CLIP scores after eliminating these
influences. Experimentally, our text-based CLIP filter outperforms the
top-ranked method on the ``small scale" of DataComp (a data filtering
benchmark) on ImageNet distribution shifts, achieving a 3.6% performance
improvement. The results also demonstrate that our proposed text-masked filter
outperforms the original CLIP score filter when selecting the top 40% of the
data. The impact of numbers on CLIP and their handling provide valuable
insights for improving the effectiveness of CLIP training, including language
rewrite techniques.
- Abstract(参考訳): マルチモダリティデータセットを web スケールで適切にフィルタリングするためには, 性能向上やトレーニングコスト削減に適切なフィルタリング手法を採用することが重要である。
例えば、LAIONの論文では、CLIPスコアフィルタを使用して、特定のしきい値を超えたCLIPスコアを持つデータを選択する。
一方、T-MARSは画像中のテキストを検出し、マスクし、CLIPスコアでフィルタリングすることで、高品質なデータフィルタリングを実現する。
データセットを解析することにより、テキストの内容に含まれる数字などの冗長な情報のかなりの割合を観察する。
データのサブセットに関する実験では、これらの冗長な要素がCLIPスコアに与える影響が明らかになりました。
論理的アプローチでは、これらの影響を排除した後、CLIPスコアを再評価する。
テキストベースのCLIPフィルタは、ImageNetの分散シフトにおいて、DataComp(データフィルタリングベンチマーク)の‘小スケール’において、上位ランクのメソッドよりも優れ、パフォーマンスが3.6%向上した。
また,提案したテキストマスキングフィルタは,データの上位40%を選択する際に,元のCLIPスコアフィルタよりも優れていることを示す。
CLIPに対する数値の影響とその処理は、言語書き換えテクニックを含むCLIPトレーニングの有効性を改善する上で、貴重な洞察を提供する。
関連論文リスト
- Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp [13.749279800238092]
画像テキストデータフィルタリングにはバイアスがあり、値レイデンであることを示す。
いくつかの差し迫った人口集団に関するデータは、排除率の上昇に関連している。
私たちの結論は、データセットの作成とフィルタリングのプラクティスに根本的な変更が必要であることを示している。
論文 参考訳(メタデータ) (2024-05-13T21:53:06Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Enhancing Low-Resource LLMs Classification with PEFT and Synthetic Data [36.09359953556684]
大規模言語モデル(LLMs)は、テキスト分類タスクにおいて、0ショットまたは数ショットの設定で動作する。
In-Context Learning (ICL) は通常、0ショット設定よりも精度が高いが、入力のプロンプトが長くなるため、効率性は高い。
論文 参考訳(メタデータ) (2024-04-03T03:24:19Z) - Finetuned Multimodal Language Models Are High-Quality Image-Text Data
Filters [38.41887207958015]
微調整多モーダル言語モデル(MLM)を利用した画像テキストデータのフィルタリングのための新しいフレームワークを提案する。
我々のフィルタは、異なるモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用することができる。
論文 参考訳(メタデータ) (2024-03-05T06:05:15Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision [26.13829720290035]
Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
論文 参考訳(メタデータ) (2022-03-11T08:41:00Z) - Data Agnostic Filter Gating for Efficient Deep Networks [72.4615632234314]
現在のフィルタプルーニング法は主に特徴写像を利用してフィルタの重要なスコアを生成し、より小さなスコアのプルーンを生成する。
本稿では,Daggerモジュールと呼ばれる補助的ネットワークを用いてプルーニングを誘導するデータフィルタプルーニング手法を提案する。
さらに,特定のFLOP制約でプルーネフィルタを支援するために,明示的なFLOPを意識した正規化を活用して,プルーニングフィルタを直接対象のFLOPに向けて推進する。
論文 参考訳(メタデータ) (2020-10-28T15:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。