論文の概要: The Harder Text Embedding Benchmark (HTEB): Beyond One-dimensional Static Robustness
- arxiv url: http://arxiv.org/abs/2605.28190v1
- Date: Wed, 27 May 2026 09:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.92222
- Title: The Harder Text Embedding Benchmark (HTEB): Beyond One-dimensional Static Robustness
- Title(参考訳): HTEB(Harder Text Embedding Benchmark) - 1次元静的ロバスト性を超えて
- Authors: Manuel Frank, Haithem Afli,
- Abstract要約: 組込みロバスト性は多次元的であり、モデルは異なる種類の変動に対して異なる応答をするからである。
HTEB(Harder Text Embedding Benchmark)は、3つの現実的に解釈可能な軸に沿ったロバスト性に挑戦する動的評価フレームワークである。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding benchmarks like MTEB report a single score per model, implicitly treating robustness as a static, scalar property. We argue that embedding robustness is multidimensional, since models respond differently to different types of variation, and requires dynamic evaluation to expose failures hidden by static benchmarks. We introduce the Harder Text Embedding Benchmark (HTEB), a dynamic evaluation framework that challenges model robustness along three practically interpretable axes (Lexical/Stylistic, Length and Language) by stochastically transforming inputs at evaluation time with an LLM. Evaluating 16 open-weight embedding models on 32 datasets covering 42 languages under transformations validated by 4,800 human ratings on an English subsample, we find three patterns: (1) Models exhibit specific, partly decoupled robustness profiles across axes. (2) Across three model families, scale increases absolute scores but does not close the gap between original and transformed evaluations. Here, scaling tends to improve specifically the Language axis. (3) English datasets are more sensitive to HTEB transformations than multilingual datasets. This demonstrates that HTEB identifies strengths and weaknesses of models along deployment-relevant axes, challenging current embedding benchmarks and arguing for multidimensional, dynamic robustness evaluation.
- Abstract(参考訳): MTEBのようなベンチマークを組み込むと、モデルごとに単一のスコアが報告され、ロバスト性は静的なスカラープロパティとして暗黙的に扱われる。
静的ベンチマークによって隠された障害を明らかにするためには,モデルが異なる種類の変動に対して異なる応答を示すため,ロバスト性の埋め込みは多次元である,と我々は主張する。
LLMによる評価時に入力を統計的に変換することで、現実的に解釈可能な3つの軸(文法・立体・長文・言語)のモデルロバスト性に挑戦する動的評価フレームワークであるHarter Text Embedding Benchmark (HTEB) を導入する。
英語サブサンプル上で4,800人の評価によって検証された42言語を対象とする32のデータセットに16のオープンウェイト埋め込みモデルを適用した。
2) 3つのモデル群にまたがって,スケールは絶対スコアを増加させるが,オリジナルとトランスフォーメーション評価のギャップを埋めることはできない。
ここでは、スケーリングは言語軸を特に改善する傾向があります。
(3)英語データセットは多言語データセットよりもHTEB変換に敏感である。
このことは、HTEBが配置関連軸に沿ったモデルの長所と短所を識別し、現在の埋め込みベンチマークに挑戦し、多次元の動的堅牢性評価を議論していることを示している。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs [0.21485350418225244]
評価時に意味的パラフレーズを生成し,複数の実行で結果を集約する動的プロトコルであるParaphrasing Text Embedding Benchmark (PTEB) を導入する。
文エンコーダの性能は意味論が固定されたままでもトークン空間の変化に敏感であるという仮説を検証する。
結果は複数の実行に対して統計的に堅牢であり、実験を10言語をカバーする3つのデータセットに拡張しました。
論文 参考訳(メタデータ) (2025-10-08T07:37:19Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability [27.16741353384065]
テキスト・トゥ・バイ・モデルはしばしば、質問における単語間の語彙マッチングとデータスキーマにおけるトークンに依存している。
本研究では,これまで検討されていない領域である現行のテキスト・ツー・ヴィジュア・モデルのロバスト性について検討する。
本稿では,2つの変種における入力摂動に対処するために特別に設計されたGRED(Retrieval-Augmented Generation, RAG)技術に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T16:12:50Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。