論文の概要: ColorFoil: Investigating Color Blindness in Large Vision and Language Models
- arxiv url: http://arxiv.org/abs/2405.11685v1
- Date: Sun, 19 May 2024 22:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:43:16.089686
- Title: ColorFoil: Investigating Color Blindness in Large Vision and Language Models
- Title(参考訳): ColorFoil: 大規模視覚と言語モデルにおける色盲点の調査
- Authors: Ahnaf Mozib Samin, M. Firoz Ahmed, Md. Mushtaq Shahriyar Rafee,
- Abstract要約: 我々は新しいV&LベンチマークであるColorFoilを紹介する。
私たちはCLIP、VLT、GroupViT、BridgeTowerを含む最先端V&Lモデル7つのモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the utilization of Transformer architecture, large Vision and Language (V&L) models have shown promising performance in even zero-shot settings. Several studies, however, indicate a lack of robustness of the models when dealing with complex linguistics and visual attributes. In this work, we introduce a novel V&L benchmark - ColorFoil, by creating color-related foils to assess the models' perception ability to detect colors like red, white, green, etc. We evaluate seven state-of-the-art V&L models including CLIP, ViLT, GroupViT, and BridgeTower, etc. in a zero-shot setting and present intriguing findings from the V&L models. The experimental evaluation indicates that ViLT and BridgeTower demonstrate much better color perception capabilities compared to CLIP and its variants and GroupViT. Moreover, CLIP-based models and GroupViT struggle to distinguish colors that are visually distinct to humans with normal color perception ability.
- Abstract(参考訳): Transformerアーキテクチャの利用により、大きなビジョン・アンド・ランゲージ(V&L)モデルはゼロショット設定でも有望な性能を示している。
しかし、いくつかの研究は、複雑な言語学や視覚的属性を扱う際に、モデルの堅牢性の欠如を示唆している。
本研究では、赤、白、緑などの色を検出するモデルの知覚能力を評価するために、色に関連したホイルを作成することで、新しいV&LベンチマークであるColorFoilを導入する。
ゼロショット設定でCLIP, ViLT, GroupViT, BridgeTowerなど7種類の最先端V&Lモデルを評価し, V&Lモデルから興味深い知見を得た。
実験により、VLTとBridgeTowerは、CLIPとその変異体とGroupViTと比較して、より優れた色知覚能力を示すことが示された。
さらに、CLIPベースのモデルとGroupViTは、通常の色知覚能力を持つ人間と視覚的に異なる色を区別するのに苦労している。
関連論文リスト
- ViTOC: Vision Transformer and Object-aware Captioner [0.0]
ViTOCは画像キャプションのための視覚言語モデルであり、生成された記述の正確さと多様性の課題に対処する。
事前訓練された視覚モデルパラメータを利用することで、ViTOCは効率的なエンドツーエンドトレーニングを実現する。
論文 参考訳(メタデータ) (2024-11-09T13:13:49Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias [34.005902280160356]
本稿では,CLIPの微調整に使用できる合成反事実画像を生成するための新しいフレームワークを提案する。
精細調整されたCLIPモデルである$CF_alpha$は、画像検索タスクに対してMaxSkew、MinSkew、NDKLなどのキーフェアネス指標を40~66%改善することを示す。
論文 参考訳(メタデータ) (2024-06-17T08:42:19Z) - Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning [5.9024599926156744]
TTIモデルにより生成された漫画の文字画像に対する新しい視覚幻覚検出システムを提案する。
提案手法は,視覚言語モデル (VLM) を用いたポーズ認識型インコンテキスト・ビジュアル・ラーニング (PA-ICVL) を活用し,RGB画像とポーズ情報の両方を活用する。
論文 参考訳(メタデータ) (2024-03-22T09:13:09Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。