論文の概要: Exploiting Pseudo Image Captions for Multimodal Summarization
- arxiv url: http://arxiv.org/abs/2305.05496v2
- Date: Sat, 24 Feb 2024 04:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:50:54.354849
- Title: Exploiting Pseudo Image Captions for Multimodal Summarization
- Title(参考訳): 擬似画像キャプションのマルチモーダル要約への応用
- Authors: Chaoya Jiang, Rui Xie, Wei Ye, Jinan Sun, Shikun Zhang
- Abstract要約: 視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。
画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
- 参考スコア(独自算出の注目度): 26.033681302592207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal contrastive learning in vision language pretraining (VLP) faces
the challenge of (partial) false negatives. In this paper, we study this
problem from the perspective of Mutual Information (MI) optimization. It is
common sense that InfoNCE loss used in contrastive learning will maximize the
lower bound of MI between anchors and their positives, while we theoretically
prove that MI involving negatives also matters when noises commonly exist.
Guided by a more general lower bound form for optimization, we propose a
contrastive learning strategy regulated by progressively refined cross-modal
similarity, to more accurately optimize MI between an image/text anchor and its
negative texts/images instead of improperly minimizing it. Our method performs
competitively on four downstream cross-modal tasks and systematically balances
the beneficial and harmful effects of (partial) false negative samples under
theoretical guidance.
- Abstract(参考訳): vision language pretraining(vlp)におけるクロスモーダルコントラスト学習は、(部分的な)偽陰性の問題に直面している。
本稿では,相互情報(MI)最適化の観点からこの問題を考察する。
対照的な学習で使用されるInfoNCE損失は、アンカーと正のMIの低い境界を最大化するが、理論上は、ノイズが一般的に存在する場合にも、負のMIが重要であることを証明している。
最適化のためのより一般的な下界形式によって導かれ、段階的に改良されたクロスモーダルな類似性によって制御される対照的な学習戦略を提案し、画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
提案手法は,下流の4つのクロスモーダルタスクと,(部分的な)偽陰性サンプルの有益かつ有害な効果を,理論的指導下で体系的にバランスをとる。
関連論文リスト
- Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Vision Language Pre-training by Contrastive Learning with Cross-Modal
Similarity Regulation [44.851623239151124]
視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。
画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
論文 参考訳(メタデータ) (2023-05-08T05:53:30Z) - An Information Minimization Based Contrastive Learning Model for
Unsupervised Sentence Embeddings Learning [19.270283247740664]
教師なし文表現学習のための情報最小化に基づくコントラスト学習(InforMin-CL)モデルを提案する。
情報最小化は単純なコントラストと再構成の目的によって達成できる。
論文 参考訳(メタデータ) (2022-09-22T12:07:35Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Max-Margin Contrastive Learning [120.32963353348674]
教師なし表現学習のためのMMCL(max-margin contrastive learning)を提案する。
提案手法は2次最適化問題を用いて得られたスパース支持ベクトルとして負を選択する。
我々は、標準ビジョンベンチマークデータセットに対するアプローチを検証し、教師なし表現学習におけるより良い性能を示す。
論文 参考訳(メタデータ) (2021-12-21T18:56:54Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。