論文の概要: SAGE: A Realistic Benchmark for Semantic Understanding
- arxiv url: http://arxiv.org/abs/2509.21310v1
- Date: Thu, 25 Sep 2025 15:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.029675
- Title: SAGE: A Realistic Benchmark for Semantic Understanding
- Title(参考訳): SAGE: 意味的理解のための現実的なベンチマーク
- Authors: Samarth Goel, Reagan J. Lee, Kannan Ramchandran,
- Abstract要約: SAGE(Semantic Alignment & Generalization Evaluation)は,埋め込みモデルと類似度指標の両方を評価するための厳密なベンチマークである。
9つの埋め込みモデルと古典的なメトリクスを総合的に評価すると、大きなパフォーマンスのギャップが明らかになる。
OpenAI のtext-embedding-3-small が最も高いクラスタリング性能 (0.483) を達成するが、最低ロバストネススコア (0.011) で極端に脆さを示す。
- 参考スコア(独自算出の注目度): 9.688555356614044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) achieve strong performance on traditional benchmarks, there is an urgent need for more challenging evaluation frameworks that probe deeper aspects of semantic understanding. We introduce SAGE (Semantic Alignment & Generalization Evaluation), a rigorous benchmark designed to assess both embedding models and similarity metrics across five categories: Human Preference Alignment, Transformation Robustness, Information Sensitivity, Clustering Performance, and Retrieval Robustness. Unlike existing benchmarks that focus on isolated capabilities, SAGE evaluates semantic understanding through adversarial conditions, noisy transformations, and nuanced human judgment tasks across 30+ datasets. Our comprehensive evaluation of 9 embedding models and classical metrics reveals significant performance gaps, with no single approach excelling across all dimensions. For instance, while state-of-the-art embedding models like OpenAI's text-embedding-3-large dominate in aligning with human preferences (0.682 vs. 0.591 for the best classical metric), they are significantly outperformed by classical metrics on information sensitivity tasks, where Jaccard Similarity achieves a score of 0.905 compared to the top embedding score of 0.794. SAGE further uncovers critical trade-offs: OpenAI's text-embedding-3-small achieves the highest clustering performance (0.483) but demonstrates extreme brittleness with the lowest robustness score (0.011). SAGE exposes critical limitations in current semantic understanding capabilities and provides a more realistic assessment of model robustness for real-world deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は従来のベンチマークで高いパフォーマンスを達成するため、セマンティック理解のより深い側面を調査するより困難な評価フレームワークが緊急に必要である。
SAGE(Semantic Alignment & Generalization Evaluation)は、人間の嗜好アライメント、変換ロバストネス、情報感度、クラスタリング性能、検索ロバストネスの5つのカテゴリにまたがる埋め込みモデルと類似度の両方を評価するために設計された厳密なベンチマークである。
孤立した機能に焦点を当てた既存のベンチマークとは異なり、SAGEは30以上のデータセットにわたる敵対的な条件、ノイズの多い変換、微妙な人間の判断タスクを通じてセマンティックな理解を評価する。
9つの埋め込みモデルと古典的メトリクスの包括的評価は、すべての次元で優れた1つのアプローチが存在しない、大きなパフォーマンスのギャップを浮き彫りにしている。
例えば、OpenAIのtext-embedding-3-largeのような最先端の埋め込みモデルは人間の好みに合わせて優位に立つが(古典的計量では0.682対0.591)、ジャカード類似度は0.794よりも0.905のスコアを達成している。
OpenAIのtext-embedding-3-smallはクラスタリング性能が最も高い(0.483)が、最低ロバスト性スコア(0.011)で極端な脆さを示す。
SAGEは、現在のセマンティック理解能力における重要な制限を明らかにし、現実世界のデプロイメントにおけるモデルロバスト性をより現実的に評価する。
関連論文リスト
- RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - Evaluating the Effectiveness of XAI Techniques for Encoder-Based Language Models [6.349503549199403]
本研究は,人間関係協定(HA),ロバスト性,一貫性,コントラスト性という,4つの主要な指標を用いた一般的な評価枠組みを提案する。
5種類のXAIカテゴリから6つの説明可能性手法の有効性を評価した。
その結果,モデルの単純化に基づくXAI法(LIME)は,複数の指標やモデルに対して一貫して優れていた。
論文 参考訳(メタデータ) (2025-01-26T03:08:34Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。