Fugu-MT 論文翻訳(概要): Scalable Performance Analysis for Vision-Language Models

論文の概要: Scalable Performance Analysis for Vision-Language Models

arxiv url: http://arxiv.org/abs/2305.18786v2
Date: Wed, 31 May 2023 17:55:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 11:51:19.821324
Title: Scalable Performance Analysis for Vision-Language Models
Title（参考訳）: 視覚言語モデルのスケーラブルな性能解析
Authors: Santiago Castro and Oana Ignat and Rada Mihalcea
Abstract要約: 統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
参考スコア（独自算出の注目度）: 26.45624201546282
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Joint vision-language models have shown great performance over a diverse set of tasks. However, little is known about their limitations, as the high dimensional space learned by these models makes it difficult to identify semantic errors. Recent work has addressed this problem by designing highly controlled probing task benchmarks. Our paper introduces a more scalable solution that relies on already annotated benchmarks. Our method consists of extracting a large set of diverse features from a vision-language benchmark and measuring their correlation with the output of the target model. We confirm previous findings that CLIP behaves like a bag of words model and performs better with nouns and verbs; we also uncover novel insights such as CLIP getting confused by concrete words. Our framework is available at https://github.com/MichiganNLP/Scalable-VLM-Probing and can be used with other multimodal models and benchmarks.
Abstract（参考訳）: 共同視覚言語モデルは様々なタスクに対して優れたパフォーマンスを示している。しかし、これらのモデルによって学習される高次元空間は意味的誤りを特定することが困難であるため、その限界についてはほとんど知られていない。最近の研究は、高度に制御されたプロビングタスクベンチマークを設計することでこの問題に対処している。本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。本手法は,視覚言語ベンチマークから多種多様な特徴を抽出し,その特徴量と対象モデルの出力との相関性を測定した。我々は,クリップが単語の袋のように振る舞うこと,名詞や動詞がうまく機能すること,クリップが具体的単語と混同されることなどの新たな知見を明らかにする。私たちのフレームワークはhttps://github.com/MichiganNLP/Scalable-VLM-Probingで利用可能です。

関連論文リスト

Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文参考訳（メタデータ） (2024-05-15T11:55:14Z)
Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models [10.482557806309174]
セマンティックフレーズ処理タスクにおける言語モデル(LM)のテストを可能にする総合評価スイートであるLexBenchを紹介する。我々のベンチマークにより、モデルアーキテクチャにおける15のLMの性能と、分類、抽出、解釈タスクにおけるパラメータスケールを評価する。我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
論文参考訳（メタデータ） (2024-05-05T09:20:38Z)
CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models [33.80107512462935]
VLM(Foundational Vision-Language Models)は、オブジェクト中心認識において優れているが、単語順に不変と思われるテキスト表現を学習する。 GPT-4Vのような大規模単一ストリームモデルを含む任意のVLMが、組成を正常に識別する証拠は存在しない。本稿では,既存のモデルが構成言語をエンコードする能力を大幅に向上するフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T23:42:25Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文参考訳（メタデータ） (2023-10-23T03:48:24Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文参考訳（メタデータ） (2023-05-22T21:59:26Z)
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文参考訳（メタデータ） (2021-11-04T00:43:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。