論文の概要: HUME: Measuring the Human-Model Performance Gap in Text Embedding Task
- arxiv url: http://arxiv.org/abs/2510.10062v1
- Date: Sat, 11 Oct 2025 06:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.759362
- Title: HUME: Measuring the Human-Model Performance Gap in Text Embedding Task
- Title(参考訳): HUME:テキスト埋め込みタスクにおけるヒューマンモデルパフォーマンスギャップの測定
- Authors: Adnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen,
- Abstract要約: HUME:Human Evaluation Framework for Text Embeddingsを紹介する。
我々は、再分類、分類、クラスタリング、意味的テキスト類似性にまたがる16のMTEBデータセットにおける人的パフォーマンスを測定した。
人間の平均的な性能は77.6%であり、最高の埋め込みモデルでは80.1%である。
- 参考スコア(独自算出の注目度): 13.836108236883002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing human and model performance offers a valuable perspective for understanding the strengths and limitations of embedding models, highlighting where they succeed and where they fail to capture meaning and nuance. However, such comparisons are rarely made, as human performance on embedding tasks is difficult to measure. To fill this gap, we introduce HUME: Human Evaluation Framework for Text Embeddings. While frameworks like MTEB provide broad model evaluation, they lack reliable estimates of human performance, limiting the interpretability of model scores. We measure human performance across 16 MTEB datasets spanning reranking, classification, clustering, and semantic textual similarity across linguistically diverse high- and low-resource languages. Humans achieve an average performance of 77.6% compared to 80.1% for the best embedding model, although variation is substantial: models reach near-ceiling performance on some datasets while struggling on others, suggesting dataset issues and revealing shortcomings in low-resource languages. We provide human performance baselines, insight into task difficulty patterns, and an extensible evaluation framework that enables a more meaningful interpretation of the model and informs the development of both models and benchmarks. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.
- Abstract(参考訳): 人間とモデルのパフォーマンスを比較することは、埋め込みモデルの強みと制限を理解する上で貴重な視点を提供する。
しかし, 組込み作業における人間のパフォーマンスは測定が難しいため, このような比較はめったに行われない。
このギャップを埋めるために、HUME: Human Evaluation Framework for Text Embeddingsを紹介します。
MTEBのようなフレームワークは、幅広いモデル評価を提供するが、人間のパフォーマンスの信頼性を欠き、モデルスコアの解釈可能性を制限する。
言語的に多種多様な高リソース言語と低リソース言語にまたがる、再分類、分類、クラスタリング、意味的テキスト類似性にまたがる16のMTEBデータセットにおける人的パフォーマンスを測定した。
人間は最高の埋め込みモデルでは平均77.6%のパフォーマンスを80.1%と比較するが、大きな違いがある。
我々は、人間のパフォーマンスのベースライン、タスクの難易度パターンに関する洞察、およびモデルのより意味のある解釈を可能にし、モデルとベンチマークの両方の開発を知らせる拡張可能な評価フレームワークを提供する。
私たちのコード、データセット、およびリーダーボードはhttps://github.com/embeddings-benchmark/mteb.comで公開されています。
関連論文リスト
- A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting [0.0]
本稿では,大規模な言語モデル(LLM)を活用して埋め込み処理前に入力テキストを豊かに書き直しすることで,埋め込み性能を向上させる新しい手法を提案する。
このアプローチの有効性は、Banking77 Classification、TwitterSemEval 2015、Amazon Counter-factual Classificationの3つのデータセットで評価されている。
論文 参考訳(メタデータ) (2024-04-18T15:58:56Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。