論文の概要: COLA: A Benchmark for Compositional Text-to-image Retrieval
- arxiv url: http://arxiv.org/abs/2305.03689v2
- Date: Fri, 8 Sep 2023 02:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:04:39.961187
- Title: COLA: A Benchmark for Compositional Text-to-image Retrieval
- Title(参考訳): COLA: コンポジションテキスト画像検索のためのベンチマーク
- Authors: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay
Krishna, Kate Saenko
- Abstract要約: 私たちは、AttributesでローカライズされたCompose Objectsに対するテキストと画像の検索ベンチマークであるColaを設計する。
Colaは168のオブジェクトと約30Kイメージの197の属性からなる1.2kのクエリを含んでいる。
我々の人間による評価では、コラの精度は83.33%であり、現代の構成性ベンチマークと同様である。
- 参考スコア(独自算出の注目度): 77.58238153508024
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. To solve Cola, a model
must retrieve images with the correct configuration of attributes and objects,
and avoid choosing a distractor image with the same objects and attributes but
in the wrong configuration. Cola contains about 1.2k composed queries of 168
objects and 197 attributes on around 30K images. Our human evaluation finds
that Cola is 83.33% accurate, similar to contemporary compositionality
benchmarks. Using Cola as a testbed, we explore empirical modeling designs to
adapt pre-trained vision-language models to reason compositionally. We explore
6 adaptation strategies on 2 seminal vision-language models, using
compositionality-centric test benchmarks - Cola and CREPE. We find the optimal
adaptation strategy is to train a multimodal attention layer that jointly
attends over the frozen pre-trained image and language features. Surprisingly,
training multimodal layers on CLIP performs better than tuning a larger FLAVA
model with already pre-trained multimodal layers. Furthermore, our adaptation
strategy improves CLIP and FLAVA to comparable levels, suggesting that training
multimodal layers using contrastive attribute-object data is key, as opposed to
using them pre-trained. Lastly, we show that Cola is harder than a closely
related contemporary benchmark, CREPE, since simpler fine-tuning strategies
without multimodal layers suffice on CREPE, but not on Cola. However, we still
see a significant gap between our best adaptation and human accuracy,
suggesting considerable room for further research.
- Abstract(参考訳): 構成推論は人間の視覚知能の指標であるが、大きな視覚言語モデルのサイズにもかかわらず、オブジェクトと属性を組み合わせることで単純な構成を表現するのに苦労している。
コンポジション能力の欠如を測るため,Attributesで局所化したCompose Objectsに対するテキスト・画像検索ベンチマークであるColaを設計した。
Colaを解決するには、モデルが属性とオブジェクトの適切な構成で画像を検索し、同じオブジェクトと属性を持つイントラクタイメージを選択することを避ける必要がある。
Colaは168のオブジェクトと約30Kイメージの197の属性からなる1.2kのクエリを含んでいる。
人間による評価では、コーラは83.33%正確であり、現代の構成性ベンチマークと同様である。
colaをテストベッドとして使用し,事前学習した視覚言語モデルに合理性を持たせるための経験的モデリング設計について検討した。
構成性中心テストベンチマーク - cola と crepe を用いて, 2つの視覚言語モデルにおける6つの適応戦略について検討した。
最適適応戦略は,凍結した事前学習した画像と言語特徴に共同で参画するマルチモーダルアテンション層を訓練することである。
驚くべきことに、CLIP上のマルチモーダルレイヤのトレーニングは、すでにトレーニング済みのマルチモーダルレイヤで、より大きなFLAVAモデルをチューニングするよりも優れている。
さらに、我々の適応戦略はCLIPとFLAVAを同等レベルまで改善し、コントラッシブ属性オブジェクトデータを用いたマルチモーダルレイヤのトレーニングが重要であることを示唆している。
最後に、Cola は CREPE 上では十分だが、Cola では十分ではないため、近縁な現代的なベンチマーク CREPE よりも難しいことを示す。
しかし、最良の適応と人間の正確さの間には依然として大きなギャップがあり、さらなる研究の余地があることを示唆している。
関連論文リスト
- Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - CREPE: Can Vision-Language Foundation Models Reason Compositionally? [10.958279688917434]
本稿では,認知科学文献が認識する構成性に関する2つの重要な側面,体系性と生産性を計測する新しい構成性評価ベンチマークCREPEを紹介する。
体系性については,新しい構成が検索集合を支配下に置くと,モデル性能は一貫して低下することがわかった。
生産性のために、モデルの検索成功は複雑さが増すにつれて崩壊し、しばしば高い複雑性のランダムな確率に近づく。
論文 参考訳(メタデータ) (2022-12-13T19:17:36Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Co-Attention for Conditioned Image Matching [91.43244337264454]
照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
論文 参考訳(メタデータ) (2020-07-16T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。