論文の概要: VLind-Bench: Measuring Language Priors in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.08702v3
- Date: Thu, 11 Jul 2024 01:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:28:14.733827
- Title: VLind-Bench: Measuring Language Priors in Large Vision-Language Models
- Title(参考訳): VLind-Bench: 大規模視覚言語モデルにおける言語事前測定
- Authors: Kang-il Lee, Minbeom Kim, Seunghyun Yoon, Minsung Kim, Dongryeol Lee, Hyukhun Koh, Kyomin Jung,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。
それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされる。
我々は,LVLMの言語先行性を測定するために設計された最初のベンチマークであるVLind-Benchという新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 16.69706832823002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated outstanding performance across various multimodal tasks. However, they suffer from a problem known as language prior, where responses are generated based solely on textual patterns while disregarding image information. Addressing the issue of language prior is crucial, as it can lead to undesirable biases or hallucinations when dealing with images that are out of training distribution. Despite its importance, current methods for accurately measuring language priors in LVLMs are poorly studied. Although existing benchmarks based on counterfactual or out-of-distribution images can partially be used to measure language priors, they fail to disentangle language priors from other confounding factors. To this end, we propose a new benchmark called VLind-Bench, which is the first benchmark specifically designed to measure the language priors, or blindness, of LVLMs. It not only includes tests on counterfactual images to assess language priors but also involves a series of tests to evaluate more basic capabilities such as commonsense knowledge, visual perception, and commonsense biases. For each instance in our benchmark, we ensure that all these basic tests are passed before evaluating the language priors, thereby minimizing the influence of other factors on the assessment. The evaluation and analysis of recent LVLMs in our benchmark reveal that almost all models exhibit a significant reliance on language priors, presenting a strong challenge in the field.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れた性能を示す。
しかし、それらは、画像情報を無視しながら、テキストパターンのみに基づいて応答が生成される、言語事前(Language prior)と呼ばれる問題に悩まされている。
事前言語の問題に対処することは、トレーニングディストリビューション外の画像を扱う際に、望ましくない偏見や幻覚を引き起こす可能性があるため、非常に重要である。
その重要性にもかかわらず、LVLMにおける言語先行を正確に測定する現在の手法は、あまり研究されていない。
既存のベンチマークは、反ファクトやアウト・オブ・ディストリビューションのイメージに基づいており、部分的に言語先行を計測することができるが、言語先行を他の要因から切り離すことはできない。
この目的のために我々は,LVLM の言語先行,すなわち盲点を測定するために設計された最初のベンチマークである VLind-Bench という新しいベンチマークを提案する。
言語先行性を評価するために、対物画像に関するテストを含むだけでなく、コモンセンス知識、視覚知覚、コモンセンスバイアスなど、より基本的な機能を評価する一連のテストも含んでいる。
ベンチマーク中の各インスタンスについて、これらの基本テストが言語事前評価の前にパスされることを保証し、その結果、他の要素が評価に与える影響を最小限に抑える。
近年のLVLMの評価と分析により,ほぼすべてのモデルが言語先行に大きく依存していることが判明した。
関連論文リスト
- Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Does Vision-and-Language Pretraining Improve Lexical Grounding? [25.357191933430627]
ビジョン・アンド・ランゲージモデルは、テキストや画像、ビデオデータに基づいて共同で訓練される。
内部言語表現そのものが、テキストのみの表現とどのように比較されるのかは、まだ分かっていない。
論文 参考訳(メタデータ) (2021-09-21T15:12:39Z) - It's All in the Heads: Using Attention Heads as a Baseline for
Cross-Lingual Transfer in Commonsense Reasoning [4.200736775540874]
我々は,重みを重み付けした線形分類器を特徴として訓練するコモンセンス推論への簡単なアプローチを設計する。
本手法は,近年のコモンセンス推論における教師なし・教師なしの手法と競合する。
パフォーマンスの大部分は、すべての研究対象言語に対する注目の小さなサブセットによって与えられる。
論文 参考訳(メタデータ) (2021-06-22T21:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。