論文の概要: ConvGenVisMo: Evaluation of Conversational Generative Vision Models
- arxiv url: http://arxiv.org/abs/2305.17784v1
- Date: Sun, 28 May 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:48:01.942441
- Title: ConvGenVisMo: Evaluation of Conversational Generative Vision Models
- Title(参考訳): convgenvismo:対話型生成視覚モデルの評価
- Authors: Narjes Nikzad Khasmakhi, Meysam Asgari-Chenaghlu, Nabiha Asghar,
Philipp Schaer, Dietlind Z\"uhlke
- Abstract要約: 本稿では,会話生成視覚モデル(CGVM)を評価するためのフレームワークであるConvGenVisMoを紹介する。
データセットと評価コードを含むすべてのConvGenVisMoアセットがGitHubで公開される。
- 参考スコア(独自算出の注目度): 3.6511147925884946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational generative vision models (CGVMs) like Visual ChatGPT (Wu et
al., 2023) have recently emerged from the synthesis of computer vision and
natural language processing techniques. These models enable more natural and
interactive communication between humans and machines, because they can
understand verbal inputs from users and generate responses in natural language
along with visual outputs. To make informed decisions about the usage and
deployment of these models, it is important to analyze their performance
through a suitable evaluation framework on realistic datasets. In this paper,
we present ConvGenVisMo, a framework for the novel task of evaluating CGVMs.
ConvGenVisMo introduces a new benchmark evaluation dataset for this task, and
also provides a suite of existing and new automated evaluation metrics to
evaluate the outputs. All ConvGenVisMo assets, including the dataset and the
evaluation code, will be made available publicly on GitHub.
- Abstract(参考訳): Visual ChatGPT (Wu et al., 2023)のような会話生成視覚モデル(CGVM)は、コンピュータビジョンと自然言語処理技術の合成から最近登場した。
これらのモデルは、ユーザからの言語入力を理解し、視覚的な出力とともに自然言語で応答を生成するため、人間と機械間のより自然な対話的なコミュニケーションを可能にする。
これらのモデルの利用と展開に関するインフォームドな意思決定を行うには、現実的なデータセット上での適切な評価フレームワークを通じて、それらのパフォーマンスを分析することが重要である。
本稿では,CGVMの評価を行う新しいタスクのためのフレームワークであるConvGenVisMoを提案する。
ConvGenVisMoは、このタスクのための新しいベンチマーク評価データセットを導入し、アウトプットを評価するために、既存のおよび新しい自動評価メトリクスのスイートを提供する。
データセットと評価コードを含むすべてのconvgenvismoアセットは、githubで公開される予定だ。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Towards Automatic Translation of Machine Learning Visual Insights to
Analytical Assertions [23.535630175567146]
機械学習(ML)の可視化で観察される視覚特性をPythonアサーションに変換する自動化ツールを開発するためのビジョンを提示する。
このツールは、ML開発サイクルでこれらの視覚化を手作業で検証するプロセスの合理化を目的としている。
論文 参考訳(メタデータ) (2024-01-15T14:11:59Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - VisIT-Bench: A Benchmark for Vision-Language Instruction Following
Inspired by Real-World Use [49.574651930395305]
VisIT-Benchは、命令追従型視覚言語モデルの評価のためのベンチマークである。
提案データセットは592個のテストクエリからなり,それぞれに人手による指示条件付きキャプションを付与した。
人的評価と自動評価の両方を用いて,モデルと参照間の品質ギャップを定量化する。
論文 参考訳(メタデータ) (2023-08-12T15:27:51Z) - MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。