論文の概要: TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts
- arxiv url: http://arxiv.org/abs/2410.18071v1
- Date: Wed, 23 Oct 2024 17:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:35.921961
- Title: TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts
- Title(参考訳): TP-Eval:Tap Multimodal LLMsのプロンプトカスタマイズによる評価の可能性
- Authors: Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、その印象的な機能に多くの注目を集めています。
本稿では、既存のベンチマークにおけるこの欠陥を分析し、TP-Evalと呼ばれる新しい評価フレームワークを提案する。
TP-Evalは、オリジナルのプロンプトを異なるモデル向けにカスタマイズされたプロンプトに書き換える。
- 参考スコア(独自算出の注目度): 13.478250875892414
- License:
- Abstract: Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - minor prompt variations may lead to significant performance fluctuations. Thus, inappropriate prompts may obscure the models' capabilities, underestimating the models' performance. Moreover, different models have different preferences for different prompts, and thus, using the same prompt for all models will cause evaluation bias. This paper analyzes this deficiency in existing benchmarks and further introduces a new evaluation framework named TP-Eval, which introduces a prompt customization method to reduce evaluation biases and tap models' potential. TP-Eval will rewrite the original prompts to different customized prompts for different models. In particular, we propose some well-designed modules for prompt customization tailored to the scenario of MLLM evaluation. Extensive experiments demonstrate the effectiveness of our approach to uncovering models' capabilities, and TP-Eval should benefit the community in developing more comprehensive and convincing MLLM evaluation benchmarks.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) が注目されている。
MLLMの評価は、MLLMの属性を分析し、貴重な洞察を提供するために重要になっている。
しかし、現在のベンチマークでは、迅速な感度の問題を見落としている。
したがって、不適切なプロンプトはモデルの能力を曖昧にし、モデルの性能を過小評価する。
さらに、異なるモデルが異なるプロンプトに対して異なる好みを持つため、すべてのモデルで同じプロンプトを使用すると評価バイアスが発生する。
本稿では、既存のベンチマークにおけるこの欠陥を分析し、さらにTP-Evalと呼ばれる新しい評価フレームワークを導入し、評価バイアスとタップモデルの可能性を減らすための迅速なカスタマイズ手法を提案する。
TP-Evalは、オリジナルのプロンプトを異なるモデル向けにカスタマイズされたプロンプトに書き換える。
特に,MLLM評価のシナリオに合わせて,迅速なカスタマイズを行うためのよく設計されたモジュールを提案する。
大規模な実験では,モデルの能力を明らかにするためのアプローチの有効性が実証され,TP-Evalはより包括的で説得力のあるMLLM評価ベンチマークを開発する上で,コミュニティの利益になるはずだ。
関連論文リスト
- Enhancing LLM Evaluations: The Garbling Trick [0.0]
大規模言語モデル(LLM)はますます強力になり、パフォーマンスに基づいたモデルの区別が困難になる。
本稿では,既存のLCM評価を,段階的に困難なタスクに変換する一般的な手法を提案する。
結果から,これらのモデルの比較推論能力,特に OpenAI の o1-preview と Google の gemini-pro-1.5 の区別が明らかになった。
論文 参考訳(メタデータ) (2024-11-03T11:39:50Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain
Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。
単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。
各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文 参考訳(メタデータ) (2023-05-23T05:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。