論文の概要: ConvGenVisMo: Evaluation of Conversational Generative Vision Models
- arxiv url: http://arxiv.org/abs/2305.17784v1
- Date: Sun, 28 May 2023 17:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:48:01.942441
- Title: ConvGenVisMo: Evaluation of Conversational Generative Vision Models
- Title(参考訳): convgenvismo:対話型生成視覚モデルの評価
- Authors: Narjes Nikzad Khasmakhi, Meysam Asgari-Chenaghlu, Nabiha Asghar,
Philipp Schaer, Dietlind Z\"uhlke
- Abstract要約: 本稿では,会話生成視覚モデル(CGVM)を評価するためのフレームワークであるConvGenVisMoを紹介する。
データセットと評価コードを含むすべてのConvGenVisMoアセットがGitHubで公開される。
- 参考スコア(独自算出の注目度): 3.6511147925884946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational generative vision models (CGVMs) like Visual ChatGPT (Wu et
al., 2023) have recently emerged from the synthesis of computer vision and
natural language processing techniques. These models enable more natural and
interactive communication between humans and machines, because they can
understand verbal inputs from users and generate responses in natural language
along with visual outputs. To make informed decisions about the usage and
deployment of these models, it is important to analyze their performance
through a suitable evaluation framework on realistic datasets. In this paper,
we present ConvGenVisMo, a framework for the novel task of evaluating CGVMs.
ConvGenVisMo introduces a new benchmark evaluation dataset for this task, and
also provides a suite of existing and new automated evaluation metrics to
evaluate the outputs. All ConvGenVisMo assets, including the dataset and the
evaluation code, will be made available publicly on GitHub.
- Abstract(参考訳): Visual ChatGPT (Wu et al., 2023)のような会話生成視覚モデル(CGVM)は、コンピュータビジョンと自然言語処理技術の合成から最近登場した。
これらのモデルは、ユーザからの言語入力を理解し、視覚的な出力とともに自然言語で応答を生成するため、人間と機械間のより自然な対話的なコミュニケーションを可能にする。
これらのモデルの利用と展開に関するインフォームドな意思決定を行うには、現実的なデータセット上での適切な評価フレームワークを通じて、それらのパフォーマンスを分析することが重要である。
本稿では,CGVMの評価を行う新しいタスクのためのフレームワークであるConvGenVisMoを提案する。
ConvGenVisMoは、このタスクのための新しいベンチマーク評価データセットを導入し、アウトプットを評価するために、既存のおよび新しい自動評価メトリクスのスイートを提供する。
データセットと評価コードを含むすべてのconvgenvismoアセットは、githubで公開される予定だ。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Towards Automatic Translation of Machine Learning Visual Insights to
Analytical Assertions [23.535630175567146]
機械学習(ML)の可視化で観察される視覚特性をPythonアサーションに変換する自動化ツールを開発するためのビジョンを提示する。
このツールは、ML開発サイクルでこれらの視覚化を手作業で検証するプロセスの合理化を目的としている。
論文 参考訳(メタデータ) (2024-01-15T14:11:59Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。