論文の概要: OrdRankBen: A Novel Ranking Benchmark for Ordinal Relevance in NLP
- arxiv url: http://arxiv.org/abs/2503.00674v1
- Date: Sun, 02 Mar 2025 00:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:03.225849
- Title: OrdRankBen: A Novel Ranking Benchmark for Ordinal Relevance in NLP
- Title(参考訳): OrdRankBen: NLPにおける正規関連性のための新しいランク付けベンチマーク
- Authors: Yan Wang, Lingfei Qian, Xueqing Peng, Jimin Huang, Dongji Feng,
- Abstract要約: ベンチマークデータセットは、公正な比較を保証するための標準化されたテストベッドを提供する上で、重要な役割を果たす。
既存のNLPランキングベンチマークでは、通常、二進関係ラベルまたは連続関係スコアを使用し、順序関係スコアを無視する。
OrdRankBenは、多粒度関連性の違いを捉えるために設計された新しいベンチマークである。
- 参考スコア(独自算出の注目度): 6.6002656593260225
- License:
- Abstract: The evaluation of ranking tasks remains a significant challenge in natural language processing (NLP), particularly due to the lack of direct labels for results in real-world scenarios. Benchmark datasets play a crucial role in providing standardized testbeds that ensure fair comparisons, enhance reproducibility, and enable progress tracking, facilitating rigorous assessment and continuous improvement of ranking models. Existing NLP ranking benchmarks typically use binary relevance labels or continuous relevance scores, neglecting ordinal relevance scores. However, binary labels oversimplify relevance distinctions, while continuous scores lack a clear ordinal structure, making it challenging to capture nuanced ranking differences effectively. To address these challenges, we introduce OrdRankBen, a novel benchmark designed to capture multi-granularity relevance distinctions. Unlike conventional benchmarks, OrdRankBen incorporates structured ordinal labels, enabling more precise ranking evaluations. Given the absence of suitable datasets for ordinal relevance ranking in NLP, we constructed two datasets with distinct ordinal label distributions. We further evaluate various models for three model types, ranking-based language models, general large language models, and ranking-focused large language models on these datasets. Experimental results show that ordinal relevance modeling provides a more precise evaluation of ranking models, improving their ability to distinguish multi-granularity differences among ranked items-crucial for tasks that demand fine-grained relevance differentiation.
- Abstract(参考訳): ランキングタスクの評価は、自然言語処理(NLP)において重要な課題であり、特に実世界のシナリオにおける結果の直接ラベルが不足しているためである。
ベンチマークデータセットは、公正な比較を確保し、再現性を高め、進捗追跡を可能にし、厳格な評価とランキングモデルの継続的な改善を促進する、標準化されたテストベッドを提供する上で重要な役割を果たす。
既存のNLPランキングベンチマークでは、通常、二進関係ラベルまたは連続関係スコアを使用し、順序関係スコアを無視する。
しかしながら、バイナリラベルは関連性の区別を単純化し、連続的なスコアは明確な順序構造を持たず、ニュアンス付きランキングの違いを効果的に捉えることは困難である。
これらの課題に対処するため、我々はOrdRankBenを紹介した。
従来のベンチマークとは異なり、OrdRankBenは構造化順序ラベルを取り入れており、より正確なランキング評価を可能にしている。
NLPの順序関係ランキングに適切なデータセットが存在しないことを踏まえ、異なる順序ラベル分布を持つ2つのデータセットを構築した。
さらに,3種類のモデルモデル,ランキングベース言語モデル,一般的な大規模言語モデル,これらのデータセット上でのランキング中心の大規模言語モデルについて,様々なモデルを評価する。
実験結果から, 順序関係モデルによりランキングモデルの精度が向上し, 微粒化関連度を要求されるタスクにおいて, ランク付け項目間の多粒度差を識別する能力が改善された。
関連論文リスト
- Learning when to rank: Estimation of partial rankings from sparse, noisy comparisons [0.0]
偏位を学習するための原理的ベイズ手法を開発した。
我々の枠組みはいかなる統計的ランキング法にも適応できる。
従来のランキングよりも、データの微妙な要約が提供される。
論文 参考訳(メタデータ) (2025-01-05T11:04:30Z) - Splitting criteria for ordinal decision trees: an experimental study [6.575723870852787]
正規分類 (OC) は、ラベルが自然な順序を示す分類タスクに対処する機械学習分野である。
OCは順序関係を考慮に入れ、より正確で関連する結果を生み出す。
この研究は、順序関係を捉えるために設計された木に基づく方法論の実験的研究を行う。
論文 参考訳(メタデータ) (2024-12-18T10:41:44Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - GaussianMLR: Learning Implicit Class Significance via Calibrated
Multi-Label Ranking [0.0]
本稿では,ガウスMLRという新しい多ラベルランキング手法を提案する。
これは、正のラベルのランクを決定する暗黙のクラス重要性の値を学ぶことを目的としている。
提案手法は, 組み込まれた正のランク順の表現を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:09:08Z) - Statistical Comparisons of Classifiers by Generalized Stochastic
Dominance [0.0]
いくつかの基準に関して、分類器を複数のデータセットで比較する方法については、まだ合意が得られていない。
本稿では, 意思決定理論の最近の展開を取り入れた, 鮮明な議論に新たな視点を加える。
我々のフレームワークは、支配という一般化された概念によって分類器をランク付けし、それは煩雑なものを強力に回避し、しばしば自己矛盾的であり、集約に依存していることを示している。
論文 参考訳(メタデータ) (2022-09-05T09:28:15Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。