論文の概要: COLA: How to adapt vision-language models to Compose Objects Localized
with Attributes?
- arxiv url: http://arxiv.org/abs/2305.03689v1
- Date: Fri, 5 May 2023 17:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:04:24.952524
- Title: COLA: How to adapt vision-language models to Compose Objects Localized
with Attributes?
- Title(参考訳): COLA: 属性でローカライズされたオブジェクトに視覚言語モデルを適用するには?
- Authors: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay
Krishna, Kate Saenko
- Abstract要約: 複数のオブジェクトにアタッチメントされた複数の属性を合成的に推論するために、視覚言語モデルを適用する方法を示す。
我々は、プロンプト/ファインチューニングや、同じ数の非モーダル層をチューニングするといった一般的な戦略よりもうまく機能することを示す。
- 参考スコア(独自算出の注目度): 65.65412672313214
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. Using Cola as a
testbed, we explore modeling designs to adapt pre-trained vision-language
models to reason compositionally about multiple attributes attached to multiple
objects. We explore 6 finetuning strategies on 2 seminal vision-language
models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE).
Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP,
which disjointly encodes image and language during pretraining, to perform as
well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder
during pretraining to attend over both vision and language modalities. This
optimal finetuning strategy is a lightweight multi-modal adapter that jointly
attends over both image and language features generated by the pretrained
model. We show this works better than common strategies such as
prompt/fine-tuning, or tuning a comparable number of unimodal layers.
- Abstract(参考訳): 構成推論は人間の視覚知能の指標であるが、大きな視覚言語モデルのサイズにもかかわらず、オブジェクトと属性を組み合わせることで単純な構成を表現するのに苦労している。
コンポジション能力の欠如を測るため,Attributesで局所化したCompose Objectsに対するテキスト・画像検索ベンチマークであるColaを設計した。
colaをテストベッドとして使用し、事前訓練された視覚言語モデルに、複数のオブジェクトにアタッチされた複数の属性を合理化するためのモデリング設計を探求する。
3つの微調整データセットと2つのテストベンチマーク(Cola と CREPE)を使用して、2つの初等視覚言語モデル上の6つの微調整戦略を探索する。
驚くべきことに、我々の最適微調整戦略は、事前訓練中に画像と言語を不随意にエンコードする151MパラメータCLIPと、事前訓練中にマルチモーダルトランスフォーマーエンコーダを使用して、視覚と言語の両方のモダリティに出席する241MパラメータFLAVAを向上する。
この最適微調整戦略は、事前訓練されたモデルによって生成された画像特徴と言語特徴の両方に共同で参加する軽量なマルチモーダルアダプタである。
我々は、プロンプト/ファインチューニングや、同じ数の非モーダル層をチューニングするといった一般的な戦略よりもうまく機能することを示す。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - A Sober Look at the Robustness of CLIPs to Spurious Features [45.87070442259975]
私たちはCLIPモデルが現実的なスプリアス機能に依存していることを明らかにするために、CounterAnimalという新しいデータセットを作成しました。
評価の結果、CounterAnimalが取得したスプリアス特性は、異なるバックボーンとプレトレインデータを持つCLIPモデルによって総称的に学習されるが、ImageNetモデルへの影響は限定的であることが示された。
論文 参考訳(メタデータ) (2024-03-18T06:04:02Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。