論文の概要: ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models
- arxiv url: http://arxiv.org/abs/2204.08790v2
- Date: Wed, 20 Apr 2022 04:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:07:40.657901
- Title: ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models
- Title(参考訳): ELEVATER: 言語拡張ビジュアルモデルを評価するベンチマークとツールキット
- Authors: Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti
Aneja, Jianwei Yang, Ping Jin, Yong Jae Lee, Houdong Hu, Zicheng Liu, and
Jianfeng Gao
- Abstract要約: ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
- 参考スコア(独自算出の注目度): 102.63817106363597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning visual representations from natural language supervision has
recently shown great promise in a number of pioneering works. In general, these
language-augmented visual models demonstrate strong transferability to a
variety of datasets/tasks. However, it remains a challenge to evaluate the
transferablity of these foundation models due to the lack of easy-to-use
toolkits for fair benchmarking. To tackle this, we build ELEVATER (Evaluation
of Language-augmented Visual Task-level Transfer), the first benchmark to
compare and evaluate pre-trained language-augmented visual models. Several
highlights include: (i) Datasets. As downstream evaluation suites, it consists
of 20 image classification datasets and 35 object detection datasets, each of
which is augmented with external knowledge. (ii) Toolkit. An automatic
hyper-parameter tuning toolkit is developed to ensure the fairness in model
adaption. To leverage the full power of language-augmented visual models, novel
language-aware initialization methods are proposed to significantly improve the
adaption performance. (iii) Metrics. A variety of evaluation metrics are used,
including sample-efficiency (zero-shot and few-shot) and parameter-efficiency
(linear probing and full model fine-tuning). We will release our toolkit and
evaluation platforms for the research community.
- Abstract(参考訳): 自然言語の監督から視覚的な表現を学ぶことは、最近、多くの先駆的な研究で大きな約束を示している。
一般的に、これらの言語によるビジュアルモデルは、さまざまなデータセット/タスクへの強い転送性を示しています。
しかし、公平なベンチマークのための簡単に使えるツールキットがないため、これらの基礎モデルのトランスファー性を評価することは依然として課題である。
これを解決するために、私たちは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークであるELEVATER(Evaluation of Language-augmented Visual Task-level Transfer)を構築した。
いくつかのハイライトは以下のとおりである。
(i)データセット。
下流評価スイートとして、20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
(ii)ツールキット。
モデル適応の公平性を確保するために,自動ハイパーパラメータチューニングツールキットを開発した。
言語拡張ビジュアルモデルのフルパワーを活用するために,適応性能を大幅に向上させる新しい言語対応初期化手法を提案する。
(iii)指標。
サンプル効率(ゼロショットと少数ショット)やパラメータ効率(線形プローブとフルモデル微調整)など、さまざまな評価指標が使用されている。
研究コミュニティのためのツールキットと評価プラットフォームをリリースします。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。