Fugu-MT 論文翻訳(概要): Maintaining MTEB: Towards Long Term Usability and Reproducibility of Embedding Benchmarks

論文の概要: Maintaining MTEB: Towards Long Term Usability and Reproducibility of Embedding Benchmarks

arxiv url: http://arxiv.org/abs/2506.21182v1
Date: Thu, 26 Jun 2025 12:40:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:10.075037
Title: Maintaining MTEB: Towards Long Term Usability and Reproducibility of Embedding Benchmarks
Title（参考訳）: MTEBの維持:ベンチマークの長期使用性と再現性を目指して
Authors: Isaac Chung, Imene Kerboua, Marton Kardos, Roman Solomatin, Kenneth Enevoldsen,
Abstract要約: Massive Text Embedding Benchmark (MTEB) はテキスト埋め込みモデルの標準評価プラットフォームとなっている。データセットの完全性を評価し,テスト実行を自動化するとともに,ベンチマーク結果の一般化性を評価する,堅牢な継続的インテグレーションパイプラインを維持するためのアプローチを提案する。これらのエンジニアリングプラクティスは、MTEBをスケールし、品質を維持しながらより包括的になり、究極的には、この分野との関連性を高めるのに役立っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Massive Text Embedding Benchmark (MTEB) has become a standard evaluation platform for text embedding models. While previous work has established the core benchmark methodology, this paper focuses on the engineering aspects that ensure MTEB's continued reproducibility and extensibility. We present our approach to maintaining robust continuous integration pipelines that validate dataset integrity, automate test execution, and assess benchmark results' generalizability. We detail the design choices that collectively enhance reproducibility and usability. Furthermore, we discuss our strategies for handling community contributions and extending the benchmark with new tasks and datasets. These engineering practices have been instrumental in scaling MTEB to become more comprehensive while maintaining quality and, ultimately, relevance to the field. Our experiences offer valuable insights for benchmark maintainers facing similar challenges in ensuring reproducibility and usability in machine learning evaluation frameworks. The MTEB repository is available at: https://github.com/embeddings-benchmark/mteb
Abstract（参考訳）: Massive Text Embedding Benchmark (MTEB) はテキスト埋め込みモデルの標準評価プラットフォームとなっている。本稿では,MTEBの再現性と拡張性を確実にする工学的側面に注目した。データセットの完全性を評価し,テスト実行を自動化するとともに,ベンチマーク結果の一般化性を評価する,堅牢な継続的インテグレーションパイプラインを維持するためのアプローチを提案する。再現性とユーザビリティを総合的に向上させる設計選択について詳述する。さらに、コミュニティコントリビューションの扱い方や、ベンチマークを新しいタスクやデータセットで拡張するための戦略についても論じる。これらのエンジニアリングプラクティスは、MTEBをスケールし、品質を維持しながらより包括的になり、究極的には、この分野との関連性を高めるのに役立っている。私たちの経験は、機械学習評価フレームワークの再現性とユーザビリティを確保する上で、同じような課題に直面しているベンチマークメンテナに貴重な洞察を与えます。 MTEBリポジトリは、https://github.com/embeddings-benchmark/mtebで入手できる。

関連論文リスト

FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation [17.64876163735292]
FrontendBenchは、人間と大規模言語モデル(LLM)が共同開発したベンチマークである。このベンチマークは、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。自動評価フレームワークはサンドボックス環境内で生成されたコードを実行し、事前に定義されたテストスクリプトを使用して結果を評価する。
論文参考訳（メタデータ） (2025-06-16T03:20:31Z)
LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文参考訳（メタデータ） (2025-06-09T05:30:35Z)
WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文参考訳（メタデータ） (2025-03-07T08:56:20Z)
Movie2Story: A framework for understanding videos and telling stories in the form of novel text [0.0]
補助情報に富んだシナリオにおけるテキスト生成能力を評価するための新しいベンチマークを提案する。本研究は,高精度な補助情報の提供を確実にするための,革新的な自動データセット生成手法を提案する。本実験により, 提案した評価指標に基づいて, 現在のMLLM(Multi-modal Large Language Models)が準最適に動作していることが判明した。
論文参考訳（メタデータ） (2024-12-19T15:44:04Z)
BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文参考訳（メタデータ） (2024-11-20T02:38:24Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。 1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文参考訳（メタデータ） (2024-02-19T07:15:59Z)
How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文参考訳（メタデータ） (2023-12-21T03:11:30Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。 InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文参考訳（メタデータ） (2022-09-27T12:26:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。