論文の概要: The Hard Positive Truth about Vision-Language Compositionality
- arxiv url: http://arxiv.org/abs/2409.17958v1
- Date: Thu, 26 Sep 2024 15:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:52:13.024139
- Title: The Hard Positive Truth about Vision-Language Compositionality
- Title(参考訳): 視覚・言語構成性に関する強硬な肯定的真実
- Authors: Amita Kamath, Cheng-Yu Hsieh, Kai-Wei Chang, Ranjay Krishna,
- Abstract要約: 視覚言語モデルがハードポジティクスに不変であるかどうかを考察する。
強陰性字幕と強陰性字幕を併用した1,775,259枚の画像テキスト・トレーニングセットを作成した。
本研究は,CLIPの「肯定的」概念間の意味的関係の理解を徹底的に検証し,改善するための今後の研究の必要性を示唆するものである。
- 参考スコア(独自算出の注目度): 64.8065854134201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several benchmarks have concluded that our best vision-language models (e.g., CLIP) are lacking in compositionality. Given an image, these benchmarks probe a model's ability to identify its associated caption amongst a set of compositional distractors. In response, a surge of recent proposals show improvements by finetuning CLIP with distractors as hard negatives. Our investigations reveal that these improvements have, in fact, been significantly overstated -- because existing benchmarks do not probe whether finetuned vision-language models remain invariant to hard positives. By curating an evaluation dataset with 112,382 hard negatives and hard positives, we uncover that including hard positives decreases CLIP's performance by 12.9%, while humans perform effortlessly at 99%. CLIP finetuned with hard negatives results in an even larger decrease, up to 38.7%. With this finding, we then produce a 1,775,259 image-text training set with both hard negative and hard positive captions. By training with both, we see improvements on existing benchmarks while simultaneously improving performance on hard positives, indicating a more robust improvement in compositionality. Our work suggests the need for future research to rigorously test and improve CLIP's understanding of semantic relationships between related "positive" concepts.
- Abstract(参考訳): いくつかのベンチマークでは、最高のビジョン言語モデル(例えば、CLIP)は構成性を欠いていると結論付けています。
画像が与えられた場合、これらのベンチマークはモデルが関連するキャプションを合成障害の集合の中で識別する能力を探索する。
これに対し、最近の提案の急増はCLIPをハードネガティブとして微調整することで改善していることを示している。
なぜなら、既存のベンチマークでは、微調整された視覚言語モデルがハードポジティクスに不変であるかどうかを調査していないからです。
112,382のハードネガティブとハードポジティブで評価データセットをキュレートすることで、ハードポジティブを含むとCLIPのパフォーマンスが12.9%低下し、人間は99%の努力でパフォーマンスが向上することがわかった。
強い陰性で微調整されたCLIPはさらに減少し、38.7%に達する。
この結果から, 強陰性字幕と強陰性字幕を併用した1,775,259個の画像テキスト・トレーニングセットが得られた。
両方でトレーニングすることで、既存のベンチマークの改善と、ハードポジティクスのパフォーマンスの向上を両立させ、構成性の向上を図っている。
本研究は,CLIPの「肯定的」概念間の意味的関係の理解を徹底的に検証し,改善するための今後の研究の必要性を示唆するものである。
関連論文リスト
- TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - When hard negative sampling meets supervised contrastive learning [17.173114048398947]
我々は、微調整フェーズ中にハードネガティブサンプリングを組み込んだ新しい教師付きコントラスト学習目標であるSCHaNeを導入する。
SchaNeは、様々なベンチマークで、トップ1の精度で強いベースラインBEiT-3を上回っている。
提案手法は,ImageNet-1kのベースモデルに対して,86.14%の精度で新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2023-08-28T20:30:10Z) - ScoreCL: Augmentation-Adaptive Contrastive Learning via Score-Matching Function [14.857965612960475]
自己教師付きコントラスト学習(CL)は表現学習において最先端のパフォーマンスを達成した。
各種CL法を一貫して改良することにより,ScoreCLと呼ばれる手法の汎用性を示す。
論文 参考訳(メタデータ) (2023-06-07T05:59:20Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Revisiting Contrastive Learning through the Lens of Neighborhood
Component Analysis: an Integrated Framework [70.84906094606072]
下流タスクにおいて高い精度とロバスト性を同時に達成できるような、統合されたコントラスト損失を設計するための新しい手法を示す。
統合フレームワークでは,標準精度が最大6%向上し,対角精度が17%向上した。
論文 参考訳(メタデータ) (2021-12-08T18:54:11Z) - Contrastive Attraction and Contrastive Repulsion for Representation
Learning [131.72147978462348]
コントラスト学習(CL)法は,複数の負のサンプルに対して,エンコーダが各正のサンプルと対比する自己超越的な方法でデータ表現を学習する。
最近のCL法は、ImageNetのような大規模データセットで事前訓練された場合、有望な結果を得た。
自己グループ内の正と負のサンプルを別々に比較し、正と負の群を対比して進行する2つのCL戦略を提案する。
論文 参考訳(メタデータ) (2021-05-08T17:25:08Z) - Understanding and Achieving Efficient Robustness with Adversarial
Contrastive Learning [34.97017489872795]
Adversarial Supervised Contrastive Learning (ASCL)アプローチは、堅牢な精度の観点から最先端の防御を2.6%$上回る。
提案された選択戦略を持つASCLは、選択戦略なしでASCLと比較してわずか4,2.8%のプラスと6.3%のマイナスでさらに1.4%$改善を得ることができます。
論文 参考訳(メタデータ) (2021-01-25T11:57:52Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。