論文の概要: Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining
- arxiv url: http://arxiv.org/abs/2311.03964v1
- Date: Tue, 7 Nov 2023 13:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:36:01.588986
- Title: Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining
- Title(参考訳): 生成負のマイニングによる視覚言語モデルのマルチモーダル合成推論の強化
- Authors: Ugur Sahin, Hang Li, Qadeer Khan, Daniel Cremers, Volker Tresp
- Abstract要約: 大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
- 参考スコア(独自算出の注目度): 58.379339799777064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary large-scale visual language models (VLMs) exhibit strong
representation capacities, making them ubiquitous for enhancing image and text
understanding tasks. They are often trained in a contrastive manner on a large
and diverse corpus of images and corresponding text captions scraped from the
internet. Despite this, VLMs often struggle with compositional reasoning tasks
which require a fine-grained understanding of the complex interactions of
objects and their attributes. This failure can be attributed to two main
factors: 1) Contrastive approaches have traditionally focused on mining
negative examples from existing datasets. However, the mined negative examples
might not be difficult for the model to discriminate from the positive. An
alternative to mining would be negative sample generation 2) But existing
generative approaches primarily focus on generating hard negative texts
associated with a given image. Mining in the other direction, i.e., generating
negative image samples associated with a given text has been ignored. To
overcome both these limitations, we propose a framework that not only mines in
both directions but also generates challenging negative samples in both
modalities, i.e., images and texts. Leveraging these generative hard negative
samples, we significantly enhance VLMs' performance in tasks involving
multimodal compositional reasoning. Our code and dataset are released at
https://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.html.
- Abstract(参考訳): 現代の大規模視覚言語モデル(vlms)は、強い表現能力を示し、画像やテキスト理解のタスクをユビキタスにする。
それらはしばしば、大きく多様な画像のコーパスと、それに対応するテキストキャプションをインターネットからかき集めて、対比的に訓練される。
これにもかかわらず、VLMは、オブジェクトとその属性の複雑な相互作用を詳細に理解する必要がある構成的推論タスクに苦慮することが多い。
この失敗は2つの主な要因に起因する。
1) 対照的なアプローチは、伝統的に既存のデータセットからネガティブな例をマイニングすることに重点を置いてきた。
しかし、マイニングされた負の例は、モデルが正と区別することが難しくないかもしれない。
鉱業の代替手段は 負のサンプル生成です
2) 既存の生成的アプローチは, 画像に付随する硬い負のテキストの生成に重点を置いている。
反対方向のマイニング、すなわち、あるテキストに関連付けられた負の画像サンプルを生成することは無視されている。
両者の限界を克服するため,我々は,両方向のマイニングだけでなく,画像やテキストなど,両方のモダリティにおいて難解な負のサンプルを生成するフレームワークを提案する。
これらの生成的強陰性サンプルを活用することで、多モード合成推論を含むタスクにおけるVLMの性能を著しく向上させる。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlでリリースしています。
関連論文リスト
- Conan-embedding: General Text Embedding with More and Better Negative Samples [30.571206231457932]
より高品質な負例の利用を最大化するコナン埋め込みモデルを提案する。
当社のアプローチは,現在,Massiveテキスト埋め込みベンチマークの中国リーダーボードにランクインしている,埋め込みモデルの能力を効果的に向上させる。
論文 参考訳(メタデータ) (2024-08-28T11:18:06Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z) - Instance-wise Hard Negative Example Generation for Contrastive Learning
in Unpaired Image-to-Image Translation [102.99799162482283]
非ペア画像-画像翻訳(NEGCUT)におけるコントラスト学習のための例-wise hard Negative Example Generationを提案する。
具体的には、オンラインでネガティブな例を生成するようにジェネレータを訓練する。ジェネレータは、1)入力画像に基づいて生成されたサンプルをインスタンスワイズし、2)逆向きの損失で訓練されたので、強烈なネガティブな例を生成することができる。
論文 参考訳(メタデータ) (2021-08-10T09:44:59Z) - Contrastive Learning with Adversarial Perturbations for Conditional Text
Generation [49.055659008469284]
seq2seqモデルのコントラスト学習のための正負のサンプルを生成する原則的な方法を提案する。
具体的には、入力シーケンスに小さな摂動を加えることで、条件付き可能性を最小限に抑えるネガティブな例を生成します。
提案手法は,3つのテキスト生成タスクにおけるSeq2seqの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-12-14T06:20:27Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Adaptive Offline Quintuplet Loss for Image-Text Matching [102.50814151323965]
既存の画像テキストマッチングアプローチでは、オンラインのハードネガティブによるトリプルト損失を利用してモデルをトレーニングするのが一般的である。
トレーニングセット全体からオフラインで負をサンプリングして解を提案する。
我々は,MS-COCOとFlickr30Kデータセットを用いた3つの最先端画像テキストモデルに対するトレーニング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-07T22:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。