論文の概要: An Examination of the Compositionality of Large Generative
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.10509v1
- Date: Mon, 21 Aug 2023 06:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:49:40.093233
- Title: An Examination of the Compositionality of Large Generative
Vision-Language Models
- Title(参考訳): 大規模生成視覚言語モデルの構成性の検討
- Authors: Teli Ma, Rong Li, Junwei Liang
- Abstract要約: GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
- 参考スコア(独自算出の注目度): 8.586311439906224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of Large Language Models (LLMs), a surge of Generative
Vision-Language Models (GVLMs) have been constructed via multimodal instruction
tuning. The tuning recipe substantially deviates from the common contrastive
vision-language learning. However, the performance of GVLMs in multimodal
compositional reasoning remains largely unexplored, as existing evaluation
metrics and benchmarks focus predominantly on assessing contrastive models like
CLIP. In this paper, we examine the potential evaluation metrics to assess the
GVLMs and hypothesize generative score methods are suitable for evaluating
compositionality. In addition, current benchmarks tend to prioritize syntactic
correctness over semantics. The presence of morphological bias in these
benchmarks can be exploited by GVLMs, leading to ineffective evaluations. To
combat this, we define a MorphoBias Score to quantify the morphological bias
and propose a novel LLM-based strategy to calibrate the bias. Moreover, a
challenging task is added to evaluate the robustness of GVLMs against inherent
inclination toward syntactic correctness. We include the calibrated dataset and
the task into a new benchmark, namely MOrphologicall De-biased Benchmark
(MODE). Our study provides the first unbiased benchmark for the
compositionality of GVLMs, facilitating future research in this direction. We
will release our code and datasets.
- Abstract(参考訳): 大規模言語モデル(llms)の成功により、マルチモーダル命令チューニングによって生成的視覚言語モデル(gvlm)が急増した。
チューニングレシピは、共通するコントラスト視覚言語学習から実質的に逸脱する。
しかし、既存の評価指標やベンチマークはCLIPのような対照的なモデルの評価に重点を置いているため、マルチモーダルな構成推論におけるGVLMの性能は未解明のままである。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法を提案する。
さらに、現在のベンチマークでは、セマンティクスよりも構文的正確性を優先する傾向がある。
これらのベンチマークにおけるモルフォロジーバイアスの存在は、GVLMによって悪用され、非効率な評価につながる。
そこで我々は形態的バイアスを定量化するためのmorphobiasスコアを定義し,バイアスを校正する新しい llm ベースの戦略を提案する。
さらに,GVLMの構文的正当性に対する固有の傾きに対する頑健性を評価するために,課題が加えられた。
キャリブレーションされたデータセットとタスクを新しいベンチマーク、すなわちMOrphologicall De-biased Benchmark (MODE)に含めます。
本研究は,GVLMの組成性に関する非バイアスベンチマークを初めて提供し,今後の研究を促進する。
コードとデータセットをリリースします。
関連論文リスト
- Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Predicting Question-Answering Performance of Large Language Models
through Semantic Consistency [5.857193811761703]
本研究では,大規模言語モデルの質問応答のセマンティック一貫性を評価するタスクに対処する。
事実質問のための高品質なパラフレーズ付きベンチマークデータセットを作成し、そのデータセットをコミュニティにリリースする。
実際のQA参照レスパフォーマンス予測のためのフレームワークを構築し,評価する。
論文 参考訳(メタデータ) (2023-11-02T11:27:21Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language
Models [65.748973163151]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - On Learning to Summarize with Large Language Models as References [105.62615205746106]
本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。