Fugu-MT 論文翻訳(概要): Probing Conceptual Understanding of Large Visual-Language Models

論文の概要: Probing Conceptual Understanding of Large Visual-Language Models

arxiv url: http://arxiv.org/abs/2304.03659v2
Date: Wed, 25 Oct 2023 21:36:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 02:28:11.926825
Title: Probing Conceptual Understanding of Large Visual-Language Models
Title（参考訳）: 大規模視覚言語モデルの概念的理解
Authors: Madeline Chantry Schiappa and Michael Cogswell and Ajay Divakaran and Yogesh Singh Rawat
Abstract要約: 大規模視覚言語モデル(V+L)が視覚内容の概念的把握能力を持つか否かを検討する。我々の調査は認知科学に基礎を置いており、V+Lモデルが人間の手で飾られた雪が有り得ないかどうかを判断するのに役立つ。本研究は,クロスアテンションが概念的理解の学習に役立つこと,CNNがテクスチャやパターンに優れていること,トランスフォーマーが色や形状に優れていること,などの興味深い知見を明らかにする。
参考スコア（独自算出の注目度）: 9.04838392876771
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years large visual-language (V+L) models have achieved great success in various downstream tasks. However, it is not well studied whether these models have a conceptual grasp of the visual content. In this work we focus on conceptual understanding of these large V+L models.To facilitate this study, we propose novel benchmarking datasets for probing three different aspects of content understanding, 1) relations, 2) composition and 3) context. Our probes are grounded in cognitive science and help determine if a V+L model can, for example, determine if ``snow garnished with a man'' is implausible, or if it can identify beach furniture by knowing it is located on a beach. We experimented with five different state-of-the-art V+L models and observe that these models mostly fail to demonstrate a conceptual understanding. This study reveals several interesting insights such as cross-attention helps learning conceptual understanding, and that CNNs are better with texture and patterns, while Transformers are better at color and shape. We further utilize some of these insights and propose a baseline for improving performance by a simple finetuning technique that rewards the three conceptual understanding measures with promising initial results. We believe that the proposed benchmarks will help the community assess and improve the conceptual understanding capabilities of large V+L models.
Abstract（参考訳）: 近年、大規模な視覚言語モデル(v+l)が様々な下流タスクで大きな成功を収めている。しかし、これらのモデルが視覚内容の概念的把握を持っているかどうかについては、よく研究されていない。本研究では,これらの大規模V+Lモデルの概念的理解に着目し,コンテンツ理解の3つの異なる側面を探索するための新しいベンチマークデータセットを提案する。 1)関係性 2)構成及び 3) コンテキスト。私たちのプローブは認知科学に基礎を置き、例えば、v+lモデルが`snow garnished with a man''' が目立たないかどうかを判断できるかどうか、あるいはビーチにあることを知ってビーチ家具を識別できるかどうかを判断するのに役立ちます。我々は5種類の最先端V+Lモデルを実験し、これらのモデルが概念的理解をほとんど示さないことを観察した。本研究は,クロスアテンションが概念的理解の学習に役立つこと,CNNがテクスチャやパターンに優れていること,トランスフォーマーが色や形状に優れていること,などの興味深い知見を明らかにする。さらに,これらの知見のいくつかを活用し,3つの概念理解尺度と期待できる初期結果に報いる簡易微調整手法により,性能向上のためのベースラインを提案する。提案したベンチマークは,大規模なV+Lモデルの概念理解能力の評価と改善に役立つと考えている。

関連論文リスト

Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文参考訳（メタデータ） (2025-06-06T17:06:25Z)
Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文参考訳（メタデータ） (2024-11-15T15:31:06Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。 CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers [11.155818952879146]
最近の研究は、オブジェクト中心の表現が学習力学の精度を大幅に向上させることを示した。対象中心モデルにおける視覚力学予測の精度をさらに向上することは可能か? 我々は、オブジェクトが持つ可能性のある属性の種類について、具体的な仮定をすることなく、静的なイメージ citepnsb の場合のこのような非絡み合い表現を学習しようと試みる。
論文参考訳（メタデータ） (2024-07-03T15:43:54Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
Explaining Explainability: Understanding Concept Activation Vectors [35.37586279472797]
最近の解釈可能性法では、概念に基づく説明を用いて、ディープラーニングモデルの内部表現を、人間が慣れ親しんだ言語に翻訳する。これは、ニューラルネットワークの表現空間にどの概念が存在するかを理解する必要がある。本研究では,概念活性化ベクトル(Concept Activation Vectors, CAV)の3つの特性について検討する。本研究では,これらの特性の存在を検出するためのツールを導入し,それらが引き起こした説明にどのように影響するかを把握し,その影響を最小限に抑えるための推奨事項を提供する。
論文参考訳（メタデータ） (2024-04-04T17:46:20Z)
Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models [80.32412260877628]
人間の解釈可能な概念をデータから学習する方法を研究する。両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文参考訳（メタデータ） (2024-02-14T15:23:59Z)
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions [6.231370972617915]
ゼロショット参照表現理解は、提供されるテキストプロンプトに対応する画像内のバウンディングボックスをローカライズすることを目的としている。既存の視覚言語アライメントモデル、例えばCLIPは両方の側面で苦労しているため、このタスクに直接使用することはできない。我々は、大きな基礎モデルを活用して、画像とテキストの両方を(オブジェクト、述語、オブジェクト)の形式で三つ子に分解する。
論文参考訳（メタデータ） (2023-11-28T18:55:37Z)
Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文参考訳（メタデータ） (2023-11-28T18:53:06Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文参考訳（メタデータ） (2023-05-24T08:33:15Z)
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning [80.59607794927363]
視覚言語ニューラルモジュール(LNCVM)の協調学習のための新しいイメージキャプタを提案する。 VQAで広く使われているニューラルモジュールネットワークとは異なり、視覚言語モジュールをコロケーションする作業はより困難である。私たちのCVLNMはより効果的です。新しい最先端の129.5 CIDEr-Dを達成し、より堅牢である。 MS-COCOデータセットの実験では、CVLNMの方が効果的であることが示されている。新しい最先端129.5 CIDErの実現
論文参考訳（メタデータ） (2022-10-04T03:09:50Z)
Unpacking Large Language Models with Conceptual Consistency [14.224799628694592]
本稿では,大言語モデルの関連する概念に対する理解を測定するために,概念整合性を提案する。この新しい尺度は、概念的に関連する背景知識に関するクエリに対する応答がいかに一貫性があるかを明らかにすることで、モデルがいかにうまく機能するかを測定する。
論文参考訳（メタデータ） (2022-09-29T20:55:57Z)
FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文参考訳（メタデータ） (2022-03-30T19:45:00Z)
Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。我々は,グラフ推論機械という診断モデルを開発した。本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文参考訳（メタデータ） (2020-12-21T18:59:28Z)
Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文参考訳（メタデータ） (2020-11-26T07:11:31Z)
Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文参考訳（メタデータ） (2020-08-08T16:38:03Z)
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文参考訳（メタデータ） (2020-03-31T05:56:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。