論文の概要: BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs
- arxiv url: http://arxiv.org/abs/2603.11991v1
- Date: Thu, 12 Mar 2026 14:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.147606
- Title: BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs
- Title(参考訳): BTZSC: クロスエンコーダ、埋め込みモデル、リランカ、LLM間のゼロショットテキスト分類のためのベンチマーク
- Authors: Ilias Aarab,
- Abstract要約: ゼロショットテキスト分類(ZSC)は、コストのかかるタスク固有のアノテーションを排除することを約束する。
テキスト埋め込みモデル、リランカ、命令調整型大規模言語モデル(LLM)の最近の進歩は、NLIベースのアーキテクチャの優位性に挑戦している。
我々は、感情、トピック、意図、感情の分類にまたがる22の公開データセットの総合ベンチマークであるBTZSCを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot text classification (ZSC) offers the promise of eliminating costly task-specific annotation by matching texts directly to human-readable label descriptions. While early approaches have predominantly relied on cross-encoder models fine-tuned for natural language inference (NLI), recent advances in text-embedding models, rerankers, and instruction-tuned large language models (LLMs) have challenged the dominance of NLI-based architectures. Yet, systematically comparing these diverse approaches remains difficult. Existing evaluations, such as MTEB, often incorporate labeled examples through supervised probes or fine-tuning, leaving genuine zero-shot capabilities underexplored. To address this, we introduce BTZSC, a comprehensive benchmark of 22 public datasets spanning sentiment, topic, intent, and emotion classification, capturing diverse domains, class cardinalities, and document lengths. Leveraging BTZSC, we conduct a systematic comparison across four major model families, NLI cross-encoders, embedding models, rerankers and instruction-tuned LLMs, encompassing 38 public and custom checkpoints. Our results show that: (i) modern rerankers, exemplified by Qwen3-Reranker-8B, set a new state-of-the-art with macro F1 = 0.72; (ii) strong embedding models such as GTE-large-en-v1.5 substantially close the accuracy gap while offering the best trade-off between accuracy and latency; (iii) instruction-tuned LLMs at 4--12B parameters achieve competitive performance (macro F1 up to 0.67), excelling particularly on topic classification but trailing specialized rerankers; (iv) NLI cross-encoders plateau even as backbone size increases; and (v) scaling primarily benefits rerankers and LLMs over embedding models. BTZSC and accompanying evaluation code are publicly released to support fair and reproducible progress in zero-shot text understanding.
- Abstract(参考訳): ゼロショットテキスト分類(ZSC)は、テキストを人間が読めるラベル記述に直接マッチングすることで、コストのかかるタスク固有のアノテーションをなくすという約束を提供する。
初期のアプローチは、自然言語推論(NLI)のために微調整されたクロスエンコーダモデルに大きく依存しているが、最近のテキスト埋め込みモデル、リランカ、命令チューニングされた大規模言語モデル(LLM)の進歩は、NLIベースのアーキテクチャの優位性に挑戦している。
しかし、これらの多様なアプローチを体系的に比較することは依然として困難である。
MTEBのような既存の評価は、しばしば監督されたプローブや微調整を通してラベル付き例を取り入れ、真のゼロショット能力は未探索のままである。
BTZSCは、感情、話題、意図、感情の分類にまたがる22の公開データセットの総合的なベンチマークであり、多様なドメイン、クラス基準、文書の長さをキャプチャする。
BTZSCを利用すると、NLIクロスエンコーダ、埋め込みモデル、リランカー、命令調整LDMの4つの主要なモデルファミリを体系的に比較し、38の公開チェックポイントとカスタムチェックポイントを含む。
私たちの結果はこう示しています。
(i) Qwen3-Reranker-8Bによって例示された現代のリランカーは、マクロF1 = 0.72で新しい最先端を設定します。
(II)GTE-large-en-v1.5のような強力な埋め込みモデルは、精度とレイテンシの最良のトレードオフを提供しながら、精度のギャップを著しく埋める。
3) 4--12Bパラメータの命令調整LDMは、特にトピック分類において優れたが、特別なリランカーに追従する競争性能を達成する(F1から0.67まで)。
四 背骨の大きさが増大しても、NLIクロスエンコーダ台地及び
(v)スケーリングは主に、埋め込みモデルよりもリランカーやLLMの恩恵を受けます。
BTZSCと付随する評価コードは、ゼロショットテキスト理解における公平で再現可能な進歩をサポートするために公開されている。
関連論文リスト
- Cost-Aware Model Selection for Text Classification: Multi-Objective Trade-offs Between Fine-Tuned Encoders and LLM Prompting in Production [0.0]
大規模言語モデル(LLM)は、オープンエンド推論や生成言語タスクにおいて強力な機能を示している。
固定ラベル空間を用いた構造化テキスト分類問題に対して、モデル選択は予測性能のみによって駆動されることが多い。
BERTファミリーの細調整エンコーダを用いたモデルでは、競争力があり、しばしば優れた分類性能が得られることを示す。
論文 参考訳(メタデータ) (2026-02-06T03:54:28Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - ANLS* -- A Universal Document Processing Metric for Generative Large Language Models [40.94659575657584]
本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
論文 参考訳(メタデータ) (2024-02-06T09:50:08Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。