論文の概要: Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition
- arxiv url: http://arxiv.org/abs/2406.09388v1
- Date: Thu, 13 Jun 2024 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:15:58.935224
- Title: Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition
- Title(参考訳): ヴィシオ言語合成のスペクトルの探索と認識
- Authors: Youngtaek Oh, Pyunghwan Ahn, Jinhyung Kim, Gwangmo Song, Soonyoung Lee, In So Kweon, Junmo Kim,
- Abstract要約: 視覚と言語モデル(VLM)は、驚くべきゼロショット認識能力を示した。
しかし、それらは視覚言語的構成性、特に言語的理解ときめ細かい画像テキストアライメントの課題に直面している。
本稿では,構成性と認識の複雑な関係について考察する。
- 参考スコア(独自算出の注目度): 61.956088652094515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and language models (VLMs) such as CLIP have showcased remarkable zero-shot recognition abilities yet face challenges in visio-linguistic compositionality, particularly in linguistic comprehension and fine-grained image-text alignment. This paper explores the intricate relationship between compositionality and recognition -- two pivotal aspects of VLM capability. We conduct a comprehensive evaluation of existing VLMs, covering both pre-training approaches aimed at recognition and the fine-tuning methods designed to improve compositionality. Our evaluation employs 12 benchmarks for compositionality, along with 21 zero-shot classification and two retrieval benchmarks for recognition. In our analysis from 274 CLIP model checkpoints, we reveal patterns and trade-offs that emerge between compositional understanding and recognition accuracy. Ultimately, this necessitates strategic efforts towards developing models that improve both capabilities, as well as the meticulous formulation of benchmarks for compositionality. We open our evaluation framework at https://github.com/ytaek-oh/vl_compo.
- Abstract(参考訳): CLIPのような視覚と言語モデル(VLM)は、特に言語的理解ときめ細かい画像テキストアライメントにおいて、視覚言語学的構成性の課題に直面しながら、目覚しいゼロショット認識能力を示した。
本稿では,VLM能力の2つの重要な側面である,構成性と認識の複雑な関係について考察する。
我々は既存のVLMの総合的な評価を行い、認識を目的とした事前学習アプローチと、構成性の向上を目的とした微調整手法の両方を網羅する。
本評価では,合成性評価に12のベンチマーク,ゼロショット分類に21のベンチマーク,認識に2のベンチマークを用いた。
274のCLIPモデルチェックポイントから分析したところ、構成的理解と認識精度の間に出現するパターンとトレードオフが明らかになった。
最終的には、両方の能力を改善するモデルを開発するための戦略的努力と、構成性のベンチマークの綿密な定式化が必要である。
評価フレームワークはhttps://github.com/ytaek-oh/vl_compo.comで公開しています。
関連論文リスト
- MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View [26.52297849056656]
視覚言語モデル(VLM)は、構成的推論に関して十分な知識を欠いている。
本稿では,VLMの脆弱性を構成的理解の異なる側面から評価するために,新しいゲーム理論的視点による評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T14:22:03Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Visual-Semantic Embedding Model Informed by Structured Knowledge [3.2734466030053175]
本稿では,外部構造的知識ベースから取得した概念表現を組み込むことにより,視覚意味の埋め込みモデルを改善する新しい手法を提案する。
標準設定とゼロショット設定の両方で画像分類の性能について検討する。
論文 参考訳(メタデータ) (2020-09-21T17:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。