論文の概要: RAIR: A Rule-Aware Benchmark Uniting Challenging Long-Tail and Visual Salience Subset for E-commerce Relevance Assessment
- arxiv url: http://arxiv.org/abs/2512.24943v1
- Date: Wed, 31 Dec 2025 16:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.700002
- Title: RAIR: A Rule-Aware Benchmark Uniting Challenging Long-Tail and Visual Salience Subset for E-commerce Relevance Assessment
- Title(参考訳): RAIR:Eコマース関連性評価のためのロングテールとビジュアルサリエンスのサブセットを満たすルール対応ベンチマーク
- Authors: Chenji Lu, Zhuo Chen, Hui Zhao, Zhenyi Wang, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: 実世界のシナリオから派生した中国語データセットであるイメージ・フォー・レバレンス・アセスメント(RAIR)を用いたルール・アウェア・ベンチマークを提案する。
RAIRは、関連性評価のための標準化されたフレームワークを確立し、標準化された評価の基礎となる普遍的なルールのセットを提供する。
我々は14のオープンソースモデルとクローズドソースモデルを用いてRAIR実験を行った。
- 参考スコア(独自算出の注目度): 26.73200625292998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search relevance plays a central role in web e-commerce. While large language models (LLMs) have shown significant results on relevance task, existing benchmarks lack sufficient complexity for comprehensive model assessment, resulting in an absence of standardized relevance evaluation metrics across the industry. To address this limitation, we propose Rule-Aware benchmark with Image for Relevance assessment(RAIR), a Chinese dataset derived from real-world scenarios. RAIR established a standardized framework for relevance assessment and provides a set of universal rules, which forms the foundation for standardized evaluation. Additionally, RAIR analyzes essential capabilities required for current relevance models and introduces a comprehensive dataset consists of three subset: (1) a general subset with industry-balanced sampling to evaluate fundamental model competencies; (2) a long-tail hard subset focus on challenging cases to assess performance limits; (3) a visual salience subset for evaluating multimodal understanding capabilities. We conducted experiments on RAIR using 14 open and closed-source models. The results demonstrate that RAIR presents sufficient challenges even for GPT-5, which achieved the best performance. RAIR data are now available, serving as an industry benchmark for relevance assessment while providing new insights into general LLM and Visual Language Model(VLM) evaluation.
- Abstract(参考訳): 検索関連性はウェブ電子商取引において中心的な役割を果たす。
大規模言語モデル(LLM)は、関連タスクにおいて顕著な結果を示しているが、既存のベンチマークでは包括的なモデル評価に十分な複雑さが欠けており、業界全体で標準化された関連性評価指標が欠如している。
この制限に対処するため,実世界のシナリオから派生した中国語データセットである Image for Relevance Assessment (RAIR) を用いたルール・アウェア・ベンチマークを提案する。
RAIRは、関連性評価のための標準化されたフレームワークを確立し、標準化された評価の基礎となる普遍的なルールのセットを提供する。
さらに、RAIRは、現在の妥当性モデルに必要な必須機能を分析し、(1)基本的なモデル能力を評価するための産業均衡サンプリングの一般的なサブセット、(2)パフォーマンス限界を評価するための挑戦的なケースに焦点を当てた長期ハードサブセット、(3)マルチモーダル理解能力を評価するための視覚的サリエンスサブセットの3つのサブセットからなる包括的なデータセットを導入する。
我々は14のオープンソースモデルとクローズドソースモデルを用いてRAIR実験を行った。
その結果, RAIR は GPT-5 に対してさえ十分な課題を示し, 最高の性能を達成できた。
RAIRデータは現在利用可能であり、関連性評価の業界ベンチマークとして機能し、一般的なLLMおよびVisual Language Model(VLM)評価に関する新たな洞察を提供する。
関連論文リスト
- CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects [23.9752442213364]
CodeFuse-CR-Benchは、リポジトリレベルのCR評価のための、最初の包括性対応ベンチマークである。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
本稿では,この包括的CR課題に対して,最先端の大規模言語モデル(LLM)の大規模評価を行う。
論文 参考訳(メタデータ) (2025-09-18T11:24:09Z) - ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark [28.28891500803133]
自動音声認識システムの言語能力を評価するためにContextASR-Benchを提案する。
最大4万のデータエントリを含み、10ドメインに30万以上の名前付きエンティティがある。
LALMは、LLMの強い世界知識とコンテキストモデリングのおかげで、従来のASRモデルよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2025-07-08T07:21:20Z) - Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。
絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。
本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文 参考訳(メタデータ) (2025-03-18T15:40:18Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [65.8478860180793]
イベント抽出は広範囲の応用により、広範囲の研究が注目されている。
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
イベント抽出のための信頼性とセマンティックな評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。