Fugu-MT 論文翻訳(概要): Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

論文の概要: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

arxiv url: http://arxiv.org/abs/2412.14613v2
Date: Fri, 28 Feb 2025 03:04:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.205284
Title: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models
Title（参考訳）: 視覚言語モデルを用いたマルチモーダル・マルチタスク・マルチ基準自動評価
Authors: Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue,
Abstract要約: 視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて印象的な能力を示している。 VLMによって生成されたテキストの品質を評価するための既存のメトリクスは、通常、特定のタスクに対する全体的な評価に焦点を当てる。本稿では,ボトムアップ方式でスコアを生成するために,基準値のスコアを集約する総合評価指標であるHarmonicEvalを提案する。
参考スコア（独自算出の注目度）: 42.62148712511799
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have shown impressive abilities across a range of multi-modal tasks. However, existing metrics for evaluating the quality of text generated by VLMs typically focus on an overall evaluation for a specific task, such as image captioning. While the overall evaluation is essential for any task, the criteria prioritized can differ depending on the task, making it challenging for current metrics to adapt to multi-task scenarios. To address this limitation, we propose HarmonicEval, a reference-free comprehensive evaluation metric that aggregates criterion-wise scores to produce the overall score in a bottom-up manner. Furthermore, we construct the Multi-task Multi-criteria Human Evaluation (MMHE) dataset, which comprises 18,000 expert human judgments across four multi-modal tasks. Our experiments demonstrate that HarmonicEval achieves higher correlations with human judgments than conventional metrics while providing numerical scores for each criterion.
Abstract（参考訳）: 視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて印象的な能力を示している。しかしながら、VLMが生成するテキストの品質を評価するための既存のメトリクスは、画像キャプションのような特定のタスクに対する全体的な評価に重点を置いている。全体的な評価はあらゆるタスクに不可欠であるが、優先順位付けされた基準はタスクによって異なり、現在のメトリクスがマルチタスクシナリオに適応することは困難である。この制限に対処するために、基準のない総合的な評価指標であるHarmonicEvalを提案する。さらに,4つのマルチモーダルタスクにまたがる18,000人の専門家による評価を含むMMHEデータセットを構築した。実験の結果,ハーモニックEvalは従来の基準値よりも高い相関性を示し,各基準値に数値スコアを与えることができた。

関連論文リスト

Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [23.34710429552906]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文参考訳（メタデータ） (2024-11-26T08:21:24Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Large Language Models Are Active Critics in NLG Evaluation [9.932334723464129]
Active-Criticは、大きな言語モデル(LLM)を「アクティブな批評家」に変換する新しい評価器である実験の結果,Active-Criticは文脈認識評価基準を生成できることがわかった。
論文参考訳（メタデータ） (2024-10-14T17:04:41Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
SEAM: A Stochastic Benchmark for Multi-Document Tasks [30.153949809172605]
現在、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を測定するベンチマークは存在しない。マルチドキュメントタスクの評価手法であるSEAM(SEAM: Evaluation Approach for Multi-document task)を提案する。マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,LLMにとって大きな課題となる。
論文参考訳（メタデータ） (2024-06-23T11:57:53Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。 Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文参考訳（メタデータ） (2024-03-26T16:10:21Z)
LLMCRIT: Teaching Large Language Models to Use Criteria [38.12026374220591]
本稿では,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるフレームワークを提案する。特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。
論文参考訳（メタデータ） (2024-03-02T02:25:55Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。 textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2022-11-17T18:54:47Z)
Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。 6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文参考訳（メタデータ） (2021-09-13T08:26:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。