論文の概要: PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs
- arxiv url: http://arxiv.org/abs/2510.06730v1
- Date: Wed, 08 Oct 2025 07:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.351468
- Title: PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs
- Title(参考訳): PTEB:LLMによる評価時間における確率的パラフレーズによるロバストテキスト埋め込み評価に向けて
- Authors: Manuel Frank, Haithem Afli,
- Abstract要約: 評価時に意味的パラフレーズを生成し,複数の実行で結果を集約する動的プロトコルであるParaphrasing Text Embedding Benchmark (PTEB) を導入する。
文エンコーダの性能は意味論が固定されたままでもトークン空間の変化に敏感であるという仮説を検証する。
結果は複数の実行に対して統計的に堅牢であり、実験を10言語をカバーする3つのデータセットに拡張しました。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluations of sentence embedding models typically rely on static test beds such as the Massive Text Embedding Benchmark (MTEB). While invaluable, repeated tuning on a fixed suite can inflate reported performance and obscure real-world robustness. We introduce the Paraphrasing Text Embedding Benchmark (PTEB), a dynamic protocol that stochastically generates meaning-preserving paraphrases at evaluation time and aggregates results across multiple runs. Using a cost-efficient LLM-based method grounded in semantic textual similarity gold ratings, we show that LLMs generate token-diverse but semantically preserving, paraphrases. Across 7 MTEB tasks, we validate our hypothesis that the performance of sentence encoders is sensitive to changes in token space even when semantics remain fixed. We also observe that smaller models are not disproportionately affected relative to larger ones. Our results are statistically robust over multiple runs and we extended our experiments to 3 multilingual datasets covering 10 languages. More generally, we aim to propose a new evaluation paradigm in NLP that relies less on static, pre-defined benchmarks but shifts towards dynamic, stochastic evaluation leveraging eval-time compute.
- Abstract(参考訳): 文埋め込みモデルの現在の評価は、一般的に、Massive Text Embedding Benchmark (MTEB)のような静的テストベッドに依存している。
価値はありますが、固定スイートの繰り返しチューニングは、報告されたパフォーマンスと不明瞭な現実世界のロバスト性を向上させることができます。
評価時に意味保存パラフレーズを確率的に生成し,複数の実行で結果を集約する動的プロトコルであるParaphrasing Text Embedding Benchmark (PTEB) を導入する。
セマンティックテキスト類似性金の評価を基礎としたコスト効率のLLM法を用いて, LLMはトークンの多元性を生成するが, 意味的に保存するパラフレーズを生成することを示す。
7つのMTEBタスクにわたって、文エンコーダの性能は意味論が固定されたままでもトークン空間の変化に敏感であるという仮説を検証した。
また、より小さなモデルはより大きなモデルに対して不均等に影響されないことも観察した。
結果は複数の言語に対して統計的に堅牢であり、実験を10言語をカバーする3つの多言語データセットに拡張した。
より一般的には、静的な事前定義されたベンチマークに頼らず、eval-time計算を利用した動的確率的評価にシフトする、NLPの新しい評価パラダイムを提案する。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Intrinsic vs. Extrinsic Evaluation of Czech Sentence Embeddings: Semantic Relevance Doesn't Help with MT Evaluation [0.0]
本稿では,チェコ語固有の文の埋め込みモデルと多言語文の埋め込みモデルを,本質的および外生的評価パラダイムを用いて比較する。
内在的評価には、複雑な文変換データセットであるCostraといくつかのセマンティックテキスト類似性(STS)ベンチマークを用いて、埋め込みが言語現象を捉える能力を評価する。
余分な評価では,マシン翻訳評価のためのCOMETベースのメトリクスを用いて,各埋め込みモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-25T07:46:17Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Robustness of Large Language Models to Perturbations in Text [2.2734015467359217]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。