論文の概要: COCO-Counterfactuals: Automatically Constructed Counterfactual Examples
for Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2309.14356v1
- Date: Sat, 23 Sep 2023 00:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 17:06:51.080567
- Title: COCO-Counterfactuals: Automatically Constructed Counterfactual Examples
for Image-Text Pairs
- Title(参考訳): COCO-Counterfactuals:イメージテキストペアの自動構築
- Authors: Tiep Le and Vasudev Lal and Phillip Howard
- Abstract要約: 本稿では,テキスト・ツー・イメージ拡散モデルを用いた反実例の自動生成のためのフレームワークを提案する。
我々はCOCO-Counterfactuals(ペア画像とテキストキャプションのマルチモーダル対物データセット)を作成するためにフレームワークを使用します。
我々は,COCO-Counterfactualsの品質を人体評価により検証し,既存のマルチモーダルモデルが,我々の対物画像-テキストペアによって挑戦されていることを示す。
- 参考スコア(独自算出の注目度): 4.046773059215044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual examples have proven to be valuable in the field of natural
language processing (NLP) for both evaluating and improving the robustness of
language models to spurious correlations in datasets. Despite their
demonstrated utility for NLP, multimodal counterfactual examples have been
relatively unexplored due to the difficulty of creating paired image-text data
with minimal counterfactual changes. To address this challenge, we introduce a
scalable framework for automatic generation of counterfactual examples using
text-to-image diffusion models. We use our framework to create
COCO-Counterfactuals, a multimodal counterfactual dataset of paired image and
text captions based on the MS-COCO dataset. We validate the quality of
COCO-Counterfactuals through human evaluations and show that existing
multimodal models are challenged by our counterfactual image-text pairs.
Additionally, we demonstrate the usefulness of COCO-Counterfactuals for
improving out-of-domain generalization of multimodal vision-language models via
training data augmentation.
- Abstract(参考訳): 対実例は、自然言語処理(NLP)の分野において、データセットの相関を刺激する言語モデルの堅牢性の評価と改善に有用であることが証明されている。
NLPの実用性が実証されているにもかかわらず、最小限の反ファクト変化を伴うペア画像テキストデータの作成が困難であるため、マルチモーダル・カウンティファクトの例は比較的探索されていない。
この課題に対処するために,テキストから画像への拡散モデルを用いた偽例の自動生成のためのスケーラブルなフレームワークを提案する。
我々は,MS-COCOデータセットをベースとした,ペア画像とテキストキャプションのマルチモーダル・デファクト・データセットであるCOCO-Counterfactualsを作成する。
我々は,COCO-Counterfactualsの品質を人間による評価により検証し,既存のマルチモーダルモデルが対物画像テキストペアによって挑戦されていることを示す。
さらに,COCO-Counterfactualsのトレーニングデータ拡張によるマルチモーダル視覚言語モデルのドメイン外一般化向上に有用であることを示す。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。