論文の概要: Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks
- arxiv url: http://arxiv.org/abs/2504.04277v2
- Date: Wed, 09 Apr 2025 17:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:33:25.296342
- Title: Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks
- Title(参考訳): ハイプを超えて:マルチクラス分類タスクの埋め込み対プロンプト
- Authors: Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan,
- Abstract要約: 組込み型ソフトマックスモデルを構築し,各問題記述に関連する専門的カテゴリを予測する。
我々は、最先端のLLMモデルに同じ問題を解決するよう求めるプロンプトと比較する。
埋め込みアプローチは、精度、キャリブレーション、レイテンシ、金銭的コストの観点から、最高のLCMプロンプトよりも優れていることが分かりました。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License:
- Abstract: Are traditional classification approaches irrelevant in this era of AI hype? We show that there are multiclass classification problems where predictive models holistically outperform LLM prompt-based frameworks. Given text and images from home-service project descriptions provided by Thumbtack customers, we build embeddings-based softmax models that predict the professional category (e.g., handyman, bathroom remodeling) associated with each problem description. We then compare against prompts that ask state-of-the-art LLM models to solve the same problem. We find that the embeddings approach outperforms the best LLM prompts in terms of accuracy, calibration, latency, and financial cost. In particular, the embeddings approach has 49.5% higher accuracy than the prompting approach, and its superiority is consistent across text-only, image-only, and text-image problem descriptions. Furthermore, it yields well-calibrated probabilities, which we later use as confidence signals to provide contextualized user experience during deployment. On the contrary, prompting scores are overly uninformative. Finally, the embeddings approach is 14 and 81 times faster than prompting in processing images and text respectively, while under realistic deployment assumptions, it can be up to 10 times cheaper. Based on these results, we deployed a variation of the embeddings approach, and through A/B testing we observed performance consistent with our offline analysis. Our study shows that for multiclass classification problems that can leverage proprietary datasets, an embeddings-based approach may yield unequivocally better results. Hence, scientists, practitioners, engineers, and business leaders can use our study to go beyond the hype and consider appropriate predictive models for their classification use cases.
- Abstract(参考訳): 従来の分類アプローチは、AIの誇大宣伝の時代とは無関係なのだろうか?
予測モデルがLLMのプロンプトベースのフレームワークを一様に上回るマルチクラス分類問題が存在することを示す。
Thumbtackの顧客が提供するホームサービスプロジェクトの記述からテキストとイメージが与えられたら、各問題記述に関連するプロフェッショナルカテゴリ(例えば、ハンディマン、バスルームリモデリング)を予測する組み込みベースのソフトマックスモデルを構築します。
次に、最先端のLCMモデルに同じ問題を解決するよう求めるプロンプトと比較する。
埋め込みアプローチは、精度、キャリブレーション、レイテンシ、金銭的コストの観点から、最高のLCMプロンプトよりも優れていることが分かりました。
特に、埋め込みアプローチはプロンプトアプローチよりも49.5%高い精度で、その優位性はテキストのみ、画像のみ、およびテキストイメージの問題記述間で一致している。
さらに、うまく校正された確率が得られ、後から信頼性信号として使用して、デプロイメント中にコンテキスト化されたユーザエクスペリエンスを提供します。
逆に、プロンプトのスコアは過度に非形式的だ。
最後に、埋め込みアプローチは、イメージとテキストの処理をそれぞれ促すよりも14倍、81倍速く、現実的なデプロイメント仮定では、最大10倍のコストがかかる。
これらの結果から,組込みアプローチのバリエーションをデプロイし,A/Bテストを通じて,オフライン解析と性能の整合性を確認した。
本研究は,プロプライエタリなデータセットを活用可能なマルチクラス分類問題に対して,埋め込み型アプローチが不当に優れた結果をもたらす可能性を示唆している。
したがって、科学者、実践者、エンジニア、そしてビジネスリーダーは、私たちの研究を利用して誇大広告を超えて、分類ユースケースの適切な予測モデルを考えることができます。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。
実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-18T13:17:26Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - BYOC: Personalized Few-Shot Classification with Co-Authored Class
Descriptions [2.076173115539025]
LLMを用いた少数ショットテキスト分類のための新しい手法を提案する。
わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。
例、質問、回答は、分類プロンプトを形成するために要約される。
論文 参考訳(メタデータ) (2023-10-09T19:37:38Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Beyond prompting: Making Pre-trained Language Models Better Zero-shot
Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。
提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-29T16:01:51Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。