Fugu-MT 論文翻訳(概要): MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

論文の概要: MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

arxiv url: http://arxiv.org/abs/2410.13754v2
Date: Fri, 18 Oct 2024 08:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.04369
Title: MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
Title（参考訳）: MixEval-X: 実世界のデータミキサーからの評価
Authors: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh,
Abstract要約: 我々はMixEval-Xを紹介した。これは、様々な入力と出力のモダリティで評価を最適化するように設計された、世界初の実世界ベンチマークである。実世界のタスク分布を再構築するために,マルチモーダルベンチマークと適応修正パイプラインを提案する。
参考スコア（独自算出の注目度）: 28.130008435669865
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any, real-world benchmark designed to optimize and standardize evaluations across diverse input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions. Meanwhile, MixEval-X's model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98) while being much more efficient. We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.
Abstract（参考訳）: 多様なモダリティの認識と生成は、AIモデルにとって、現実世界の信号から効果的に学び、関わり、開発に信頼できる評価を必要とすることが重要である。本研究では,(1)異なるプロトコルと成熟度を持つ異なるコミュニティによって形成された一貫性のない標準,(2)重要なクエリ,グレーディング,一般化バイアスの2つの問題を明らかにする。これらの問題に対処するため、MixEval-Xは、様々な入力と出力のモードで評価を最適化し、標準化するように設計された、世界初の実世界のベンチマークである。本稿では,実世界のタスク分布を再構築し,実世界のユースケースに対して効果的に評価が一般化されることを保証するため,マルチモーダルベンチマークと適応修正パイプラインを提案する。大規模なメタ評価は,本手法が実世界のタスク分布とベンチマークサンプルを効果的に一致させることを示す。一方、MixEval-Xのモデルランキングはクラウドソースによる実世界の評価(最大0.98)と非常に相関するが、より効率的である。我々は、既存のモデルや組織を振り返り、マルチモーダル評価の理解を深め、将来の研究に通知するための総合的なリーダーボードを提供します。

関連論文リスト

CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文参考訳（メタデータ） (2021-09-19T19:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。