Fugu-MT 論文翻訳(概要): COLA: A Benchmark for Compositional Text-to-image Retrieval

論文の概要: COLA: A Benchmark for Compositional Text-to-image Retrieval

arxiv url: http://arxiv.org/abs/2305.03689v2
Date: Fri, 8 Sep 2023 02:46:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 18:04:39.961187
Title: COLA: A Benchmark for Compositional Text-to-image Retrieval
Title（参考訳）: COLA: コンポジションテキスト画像検索のためのベンチマーク
Authors: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
Abstract要約: 私たちは、AttributesでローカライズされたCompose Objectsに対するテキストと画像の検索ベンチマークであるColaを設計する。 Colaは168のオブジェクトと約30Kイメージの197の属性からなる1.2kのクエリを含んでいる。我々の人間による評価では、コラの精度は83.33%であり、現代の構成性ベンチマークと同様である。
参考スコア（独自算出の注目度）: 77.58238153508024
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. To solve Cola, a model must retrieve images with the correct configuration of attributes and objects, and avoid choosing a distractor image with the same objects and attributes but in the wrong configuration. Cola contains about 1.2k composed queries of 168 objects and 197 attributes on around 30K images. Our human evaluation finds that Cola is 83.33% accurate, similar to contemporary compositionality benchmarks. Using Cola as a testbed, we explore empirical modeling designs to adapt pre-trained vision-language models to reason compositionally. We explore 6 adaptation strategies on 2 seminal vision-language models, using compositionality-centric test benchmarks - Cola and CREPE. We find the optimal adaptation strategy is to train a multimodal attention layer that jointly attends over the frozen pre-trained image and language features. Surprisingly, training multimodal layers on CLIP performs better than tuning a larger FLAVA model with already pre-trained multimodal layers. Furthermore, our adaptation strategy improves CLIP and FLAVA to comparable levels, suggesting that training multimodal layers using contrastive attribute-object data is key, as opposed to using them pre-trained. Lastly, we show that Cola is harder than a closely related contemporary benchmark, CREPE, since simpler fine-tuning strategies without multimodal layers suffice on CREPE, but not on Cola. However, we still see a significant gap between our best adaptation and human accuracy, suggesting considerable room for further research.
Abstract（参考訳）: 構成推論は人間の視覚知能の指標であるが、大きな視覚言語モデルのサイズにもかかわらず、オブジェクトと属性を組み合わせることで単純な構成を表現するのに苦労している。コンポジション能力の欠如を測るため,Attributesで局所化したCompose Objectsに対するテキスト・画像検索ベンチマークであるColaを設計した。 Colaを解決するには、モデルが属性とオブジェクトの適切な構成で画像を検索し、同じオブジェクトと属性を持つイントラクタイメージを選択することを避ける必要がある。 Colaは168のオブジェクトと約30Kイメージの197の属性からなる1.2kのクエリを含んでいる。人間による評価では、コーラは83.33%正確であり、現代の構成性ベンチマークと同様である。 colaをテストベッドとして使用し,事前学習した視覚言語モデルに合理性を持たせるための経験的モデリング設計について検討した。構成性中心テストベンチマーク - cola と crepe を用いて, 2つの視覚言語モデルにおける6つの適応戦略について検討した。最適適応戦略は,凍結した事前学習した画像と言語特徴に共同で参画するマルチモーダルアテンション層を訓練することである。驚くべきことに、CLIP上のマルチモーダルレイヤのトレーニングは、すでにトレーニング済みのマルチモーダルレイヤで、より大きなFLAVAモデルをチューニングするよりも優れている。さらに、我々の適応戦略はCLIPとFLAVAを同等レベルまで改善し、コントラッシブ属性オブジェクトデータを用いたマルチモーダルレイヤのトレーニングが重要であることを示唆している。最後に、Cola は CREPE 上では十分だが、Cola では十分ではないため、近縁な現代的なベンチマーク CREPE よりも難しいことを示す。しかし、最良の適応と人間の正確さの間には依然として大きなギャップがあり、さらなる研究の余地があることを示唆している。

関連論文リスト

Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文参考訳（メタデータ） (2025-05-04T22:18:14Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文参考訳（メタデータ） (2024-05-27T12:59:35Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文参考訳（メタデータ） (2024-03-27T12:59:44Z)
A Sober Look at the Robustness of CLIPs to Spurious Features [45.87070442259975]
私たちはCLIPモデルが現実的なスプリアス機能に依存していることを明らかにするために、CounterAnimalという新しいデータセットを作成しました。評価の結果、CounterAnimalが取得したスプリアス特性は、異なるバックボーンとプレトレインデータを持つCLIPモデルによって総称的に学習されるが、ImageNetモデルへの影響は限定的であることが示された。
論文参考訳（メタデータ） (2024-03-18T06:04:02Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文参考訳（メタデータ） (2022-12-15T18:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。