論文の概要: A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation
- arxiv url: http://arxiv.org/abs/2509.14886v1
- Date: Thu, 18 Sep 2025 12:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.200165
- Title: A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation
- Title(参考訳): 効率的なMLLM評価のための複数対1インタビューパラダイム
- Authors: Ye Shen, Junying Wang, Farong Wen, Yijin Guo, Qi Jia, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 効率的なMLLM評価のためのマルチツーワンインタビューパラダイムを提案する。
本フレームワークは, (i) 事前面接と形式面接の2段階面接戦略, (ii) 公平性を確保するための重みの動的調整, (iii) 質問難度選択のための適応的メカニズムから構成される。
- 参考スコア(独自算出の注目度): 63.76972456980632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Multi-Modal Large Language Models (MLLMs) has spurred the creation of numerous benchmarks. However, conventional full-coverage Question-Answering evaluations suffer from high redundancy and low efficiency. Inspired by human interview processes, we propose a multi-to-one interview paradigm for efficient MLLM evaluation. Our framework consists of (i) a two-stage interview strategy with pre-interview and formal interview phases, (ii) dynamic adjustment of interviewer weights to ensure fairness, and (iii) an adaptive mechanism for question difficulty-level chosen. Experiments on different benchmarks show that the proposed paradigm achieves significantly higher correlation with full-coverage results than random sampling, with improvements of up to 17.6% in PLCC and 16.7% in SRCC, while reducing the number of required questions. These findings demonstrate that the proposed paradigm provides a reliable and efficient alternative for large-scale MLLM benchmarking.
- Abstract(参考訳): MLLM(Multi-Modal Large Language Models)の急速な進歩により、多数のベンチマークが作成されるようになった。
しかし, 従来の全被覆質問応答評価は, 冗長性が高く, 効率が低い。
人間の面接プロセスに触発されて,効率的なMLLM評価のための複数対1の面接パラダイムを提案する。
私たちのフレームワークは
(i)事前面接及び正式な面接段階を伴う2段階面接戦略
二 公正性を確保するためのインタビュアー重量の動的調整、及び
三 問題難易度選択のための適応的メカニズム
異なるベンチマークでの実験では、提案されたパラダイムはランダムサンプリングよりもはるかに高い相関性を示し、PLCCが17.6%、SRCCが16.7%まで改善され、必要な質問の数は削減された。
これらの結果は,提案手法が大規模MLLMベンチマークの信頼性と効率的な代替手段であることを示している。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。