論文の概要: What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases
- arxiv url: http://arxiv.org/abs/2404.02415v1
- Date: Wed, 3 Apr 2024 02:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:49:24.872227
- Title: What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases
- Title(参考訳): 大規模ビジョンランゲージモデルの評価と測定方法 : 潜伏要因とバイアスの分析
- Authors: Anthony Meng Huat Tiong, Junqi Zhao, Boyang Li, Junnan Li, Steven C. H. Hoi, Caiming Xiong,
- Abstract要約: データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
- 参考スコア(独自算出の注目度): 87.65903426052155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language (VL) models, pretrained on colossal image-text datasets, have attained broad VL competence that is difficult to evaluate. A common belief is that a small number of VL skills underlie the variety of VL tests. In this paper, we perform a large-scale transfer learning experiment aimed at discovering latent VL skills from data. We reveal interesting characteristics that have important implications for test suite design. First, generation tasks suffer from a length bias, suggesting benchmarks should balance tasks with varying output lengths. Second, we demonstrate that factor analysis successfully identifies reasonable yet surprising VL skill factors, suggesting benchmarks could leverage similar analyses for task selection. Finally, we present a new dataset, OLIVE (https://github.com/jq-zh/olive-dataset), which simulates user instructions in the wild and presents challenges dissimilar to all datasets we tested. Our findings contribute to the design of balanced and broad-coverage vision-language evaluation methods.
- Abstract(参考訳): 画像テキストデータセットに基づいて事前訓練された視覚言語(VL)モデルは、評価が難しい広範囲なVL能力を達成した。
一般的な考え方は、少数のVLスキルがVLテストの多様性を過小評価しているということである。
本稿では,データから潜伏VLスキルを発見することを目的とした大規模トランスファー学習実験を行う。
テストスイートの設計に重要な意味を持つ興味深い特徴を明らかにする。
まず、生成タスクは長さバイアスに悩まされ、ベンチマークは出力長の異なるタスクのバランスをとるべきだと提案する。
第二に、因子分析が合理的かつ驚くべきVLスキルファクターの同定に成功し、ベンチマークがタスク選択に類似した分析を活用できることを示唆する。
最後に、新しいデータセットであるOLIVE(https://github.com/jq-zh/olive-dataset)を紹介します。
本研究は,バランスの取れた広視野視覚言語評価手法の設計に寄与する。
関連論文リスト
- Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
より厳格な評価のために、より難しいバージョンのVisoGenderを紹介します。
論文 参考訳(メタデータ) (2024-10-17T02:03:27Z) - VisEval: A Benchmark for Data Visualization in the Era of Large Language Models [12.077276008688065]
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
論文 参考訳(メタデータ) (2024-07-01T05:35:30Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文 参考訳(メタデータ) (2021-11-21T07:22:44Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。