論文の概要: How and where does CLIP process negation?
- arxiv url: http://arxiv.org/abs/2407.10488v1
- Date: Mon, 15 Jul 2024 07:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:00:42.051710
- Title: How and where does CLIP process negation?
- Title(参考訳): CLIPはどのように、どこで処理しますか?
- Authors: Vincent Quantmeyer, Pablo Mosteiro, Albert Gatt,
- Abstract要約: VALSEベンチマークからモデルによる否定の理解をテストするために,既存のタスクを構築した。
本稿では,モデル解釈可能性に関する文献からインスピレーションを得て,否定の理解におけるVLモデルの振る舞いを説明する。
- 参考スコア(独自算出の注目度): 2.5600000778964294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various benchmarks have been proposed to test linguistic understanding in pre-trained vision \& language (VL) models. Here we build on the existence task from the VALSE benchmark (Parcalabescu et al, 2022) which we use to test models' understanding of negation, a particularly interesting issue for multimodal models. However, while such VL benchmarks are useful for measuring model performance, they do not reveal anything about the internal processes through which these models arrive at their outputs in such visio-linguistic tasks. We take inspiration from the growing literature on model interpretability to explain the behaviour of VL models on the understanding of negation. Specifically, we approach these questions through an in-depth analysis of the text encoder in CLIP (Radford et al, 2021), a highly influential VL model. We localise parts of the encoder that process negation and analyse the role of attention heads in this task. Our contributions are threefold. We demonstrate how methods from the language model interpretability literature (such as causal tracing) can be translated to multimodal models and tasks; we provide concrete insights into how CLIP processes negation on the VALSE existence task; and we highlight inherent limitations in the VALSE dataset as a benchmark for linguistic understanding.
- Abstract(参考訳): 事前学習されたビジョン・アンド・ランゲージ(VL)モデルにおいて、言語理解をテストするための様々なベンチマークが提案されている。
ここでは、モデルが否定を理解することをテストするために使用するVALSEベンチマーク(Parcalabescu et al, 2022)の存在課題に基づいて構築する。
しかしながら、そのようなVLベンチマークはモデル性能を測定するのに有用であるが、これらのモデルがそれらの出力に到達する内部プロセスについては何も明らかにしていない。
モデル解釈可能性に関する文献からインスピレーションを得て,VLモデルの振る舞いを否定の理解について説明する。
具体的には、非常に影響力のあるVLモデルであるCLIP(Radford et al, 2021)のテキストエンコーダの詳細な解析を通して、これらの疑問にアプローチする。
我々は、このタスクにおいて、否定処理を行うエンコーダの一部をローカライズし、アテンションヘッドの役割を分析する。
私たちの貢献は3倍です。
言語モデル解釈可能性の文献(因果トレースなど)からの手法をマルチモーダルモデルやタスクに変換する方法を実証し、VALSE存在課題におけるCLIPプロセスの否定について具体的な知見を提供し、言語理解のベンチマークとしてVALSEデータセットに固有の制限を強調した。
関連論文リスト
- Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは、イメージ、ビデオ、医療データセットにまたがる18のタスクのバリエーションと79kのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションによる複数質問に対する精度が40%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - CV-Probes: Studying the interplay of lexical and world knowledge in visually grounded verb understanding [2.524887615873207]
本研究では,様々な視覚言語モデル(VL)による文脈依存動詞句の理解能力について検討した。
CV-Probesデータセットには,文脈依存動詞を用いた画像キャプチャペアが組み込まれている。
モデル予測に対する動詞トークンの寄与を評価するためにMM-SHAP評価を用いる。
論文 参考訳(メタデータ) (2024-09-02T17:39:26Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。