論文の概要: VALSE: A Task-Independent Benchmark for Vision and Language Models
Centered on Linguistic Phenomena
- arxiv url: http://arxiv.org/abs/2112.07566v1
- Date: Tue, 14 Dec 2021 17:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 18:31:32.981932
- Title: VALSE: A Task-Independent Benchmark for Vision and Language Models
Centered on Linguistic Phenomena
- Title(参考訳): VALSE:言語現象を中心とした視覚・言語モデルのためのタスク非依存ベンチマーク
- Authors: Letitia Parcalabescu, Michele Cafagna, Lilitta Muradjan, Anette Frank,
Iacer Calixto, Albert Gatt
- Abstract要約: VALSE(Vision And Language Structured Evaluation)は、汎用的な事前学習型視覚と言語(V&L)モデルをテストするための新しいベンチマークである。
VALSEは、様々な言語構造をカバーする6つのテストスイートを提供する。
我々は有効なホイルの構築を支援する手法を用いてVALSEを構築し、5つの広く使われているV&Lモデルの評価結果について報告する。
- 参考スコア(独自算出の注目度): 15.984927623688915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose VALSE (Vision And Language Structured Evaluation), a novel
benchmark designed for testing general-purpose pretrained vision and language
(V&L) models for their visio-linguistic grounding capabilities on specific
linguistic phenomena. VALSE offers a suite of six tests covering various
linguistic constructs. Solving these requires models to ground linguistic
phenomena in the visual modality, allowing more fine-grained evaluations than
hitherto possible. We build VALSE using methods that support the construction
of valid foils, and report results from evaluating five widely-used V&L models.
Our experiments suggest that current models have considerable difficulty
addressing most phenomena. Hence, we expect VALSE to serve as an important
benchmark to measure future progress of pretrained V&L models from a linguistic
perspective, complementing the canonical task-centred V&L evaluations.
- Abstract(参考訳): VALSE (Vision And Language Structured Evaluation, VALSE) は,特定の言語現象に対する視覚言語学的基盤機能のための,汎用的な事前学習型視覚・言語(V&L)モデルをテストするための新しいベンチマークである。
VALSEは、様々な言語構造をカバーする6つのテストスイートを提供する。
これらを解決するためには、視覚的モダリティにおいて言語現象を基底とするモデルが必要である。
我々は有効なホイルの構築を支援する手法を用いてVALSEを構築し、5つの広く使われているV&Lモデルの評価結果を報告する。
実験の結果,現在のモデルではほとんどの現象に対処することが困難であることが示唆された。
したがって、VALSEは、言語学的観点から事前訓練されたV&Lモデルの今後の進歩を測定する重要なベンチマークとして機能し、標準的なタスク中心のV&L評価を補完する。
関連論文リスト
- Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。
精度の高いモデルも高い不確実性を持つ可能性があることを示す。
また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T10:04:17Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Establishing Trustworthiness: Rethinking Tasks and Model Evaluation [36.329415036660535]
我々は、NLPにおけるタスクとモデル評価を構成するものを再考する時が来たと論じる。
本稿では,モデルの機能的能力の起源を理解するために,既存のコンパートナライズドアプローチについてレビューする。
論文 参考訳(メタデータ) (2023-10-09T06:32:10Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Effect of Vision-and-Language Extensions on Natural Language
Understanding in Vision-and-Language Models [24.5834345625595]
本稿では,GLUEベンチマークを用いて視覚的拡張がV&Lモデルの言語能力に与える影響について検討する。
視覚的拡張は言語能力の低下を引き起こし、V&Lプリトレーニングは減少に対する構造的変更よりも大きな影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2021-04-16T12:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。