論文の概要: How and where does CLIP process negation?
- arxiv url: http://arxiv.org/abs/2407.10488v1
- Date: Mon, 15 Jul 2024 07:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:00:42.051710
- Title: How and where does CLIP process negation?
- Title(参考訳): CLIPはどのように、どこで処理しますか?
- Authors: Vincent Quantmeyer, Pablo Mosteiro, Albert Gatt,
- Abstract要約: VALSEベンチマークからモデルによる否定の理解をテストするために,既存のタスクを構築した。
本稿では,モデル解釈可能性に関する文献からインスピレーションを得て,否定の理解におけるVLモデルの振る舞いを説明する。
- 参考スコア(独自算出の注目度): 2.5600000778964294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various benchmarks have been proposed to test linguistic understanding in pre-trained vision \& language (VL) models. Here we build on the existence task from the VALSE benchmark (Parcalabescu et al, 2022) which we use to test models' understanding of negation, a particularly interesting issue for multimodal models. However, while such VL benchmarks are useful for measuring model performance, they do not reveal anything about the internal processes through which these models arrive at their outputs in such visio-linguistic tasks. We take inspiration from the growing literature on model interpretability to explain the behaviour of VL models on the understanding of negation. Specifically, we approach these questions through an in-depth analysis of the text encoder in CLIP (Radford et al, 2021), a highly influential VL model. We localise parts of the encoder that process negation and analyse the role of attention heads in this task. Our contributions are threefold. We demonstrate how methods from the language model interpretability literature (such as causal tracing) can be translated to multimodal models and tasks; we provide concrete insights into how CLIP processes negation on the VALSE existence task; and we highlight inherent limitations in the VALSE dataset as a benchmark for linguistic understanding.
- Abstract(参考訳): 事前学習されたビジョン・アンド・ランゲージ(VL)モデルにおいて、言語理解をテストするための様々なベンチマークが提案されている。
ここでは、モデルが否定を理解することをテストするために使用するVALSEベンチマーク(Parcalabescu et al, 2022)の存在課題に基づいて構築する。
しかしながら、そのようなVLベンチマークはモデル性能を測定するのに有用であるが、これらのモデルがそれらの出力に到達する内部プロセスについては何も明らかにしていない。
モデル解釈可能性に関する文献からインスピレーションを得て,VLモデルの振る舞いを否定の理解について説明する。
具体的には、非常に影響力のあるVLモデルであるCLIP(Radford et al, 2021)のテキストエンコーダの詳細な解析を通して、これらの疑問にアプローチする。
我々は、このタスクにおいて、否定処理を行うエンコーダの一部をローカライズし、アテンションヘッドの役割を分析する。
私たちの貢献は3倍です。
言語モデル解釈可能性の文献(因果トレースなど)からの手法をマルチモーダルモデルやタスクに変換する方法を実証し、VALSE存在課題におけるCLIPプロセスの否定について具体的な知見を提供し、言語理解のベンチマークとしてVALSEデータセットに固有の制限を強調した。
関連論文リスト
- CV-Probes: Studying the interplay of lexical and world knowledge in visually grounded verb understanding [2.524887615873207]
本研究では,様々な視覚言語モデル(VL)による文脈依存動詞句の理解能力について検討した。
CV-Probesデータセットには,文脈依存動詞を用いた画像キャプチャペアが組み込まれている。
モデル予測に対する動詞トークンの寄与を評価するためにMM-SHAP評価を用いる。
論文 参考訳(メタデータ) (2024-09-02T17:39:26Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - The Language Interpretability Tool: Extensible, Interactive
Visualizations and Analysis for NLP Models [17.423179212411263]
Language Interpretability Tool (LIT)は、NLPモデルの可視化と理解のためのオープンソースのプラットフォームである。
LITは、局所的な説明、集約分析、および反ファクト生成を、合理化されたブラウザベースのインターフェースに統合する。
論文 参考訳(メタデータ) (2020-08-12T06:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。