論文の概要: MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
- arxiv url: http://arxiv.org/abs/2410.13754v2
- Date: Fri, 18 Oct 2024 08:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 10:25:40.608682
- Title: MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures
- Title(参考訳): MixEval-X: 実世界のデータミキサーからの評価
- Authors: Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh,
- Abstract要約: 我々はMixEval-Xを紹介した。これは、様々な入力と出力のモダリティで評価を最適化するように設計された、世界初の実世界ベンチマークである。
実世界のタスク分布を再構築するために,マルチモーダルベンチマークと適応修正パイプラインを提案する。
- 参考スコア(独自算出の注目度): 28.130008435669865
- License:
- Abstract: Perceiving and generating diverse modalities are crucial for AI models to effectively learn from and engage with real-world signals, necessitating reliable evaluations for their development. We identify two major issues in current evaluations: (1) inconsistent standards, shaped by different communities with varying protocols and maturity levels; and (2) significant query, grading, and generalization biases. To address these, we introduce MixEval-X, the first any-to-any, real-world benchmark designed to optimize and standardize evaluations across diverse input and output modalities. We propose multi-modal benchmark mixture and adaptation-rectification pipelines to reconstruct real-world task distributions, ensuring evaluations generalize effectively to real-world use cases. Extensive meta-evaluations show our approach effectively aligns benchmark samples with real-world task distributions. Meanwhile, MixEval-X's model rankings correlate strongly with that of crowd-sourced real-world evaluations (up to 0.98) while being much more efficient. We provide comprehensive leaderboards to rerank existing models and organizations and offer insights to enhance understanding of multi-modal evaluations and inform future research.
- Abstract(参考訳): 多様なモダリティの認識と生成は、AIモデルにとって、現実世界の信号から効果的に学び、関わり、開発に信頼できる評価を必要とすることが重要である。
本研究では,(1)異なるプロトコルと成熟度を持つ異なるコミュニティによって形成された一貫性のない標準,(2)重要なクエリ,グレーディング,一般化バイアスの2つの問題を明らかにする。
これらの問題に対処するため、MixEval-Xは、様々な入力と出力のモードで評価を最適化し、標準化するように設計された、世界初の実世界のベンチマークである。
本稿では,実世界のタスク分布を再構築し,実世界のユースケースに対して効果的に評価が一般化されることを保証するため,マルチモーダルベンチマークと適応修正パイプラインを提案する。
大規模なメタ評価は,本手法が実世界のタスク分布とベンチマークサンプルを効果的に一致させることを示す。
一方、MixEval-Xのモデルランキングはクラウドソースによる実世界の評価(最大0.98)と非常に相関するが、より効率的である。
我々は、既存のモデルや組織を振り返り、マルチモーダル評価の理解を深め、将来の研究に通知するための総合的なリーダーボードを提供します。
関連論文リスト
- FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - On the Evaluation of Generative Adversarial Networks By Discriminative
Models [0.0]
GAN(Generative Adversarial Networks)は、複雑な多次元データを正確にモデル化し、現実的なサンプルを生成する。
この問題に対処する研究努力の大部分は、質的な視覚的評価によって検証された。
本研究では,シームズニューラルネットワークを用いてドメインに依存しない評価指標を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:50:39Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。