Fugu-MT 論文翻訳(概要): Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks

論文の概要: Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks

arxiv url: http://arxiv.org/abs/2504.04277v2
Date: Wed, 09 Apr 2025 17:15:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 12:26:58.279319
Title: Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks
Title（参考訳）: ハイプを超えて:マルチクラス分類タスクの埋め込み対プロンプト
Authors: Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan,
Abstract要約: 組込み型ソフトマックスモデルを構築し,各問題記述に関連する専門的カテゴリを予測する。我々は、最先端のLLMモデルに同じ問題を解決するよう求めるプロンプトと比較する。埋め込みアプローチは、精度、キャリブレーション、レイテンシ、金銭的コストの観点から、最高のLCMプロンプトよりも優れていることが分かりました。
参考スコア（独自算出の注目度）: 0.8192907805418581
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Are traditional classification approaches irrelevant in this era of AI hype? We show that there are multiclass classification problems where predictive models holistically outperform LLM prompt-based frameworks. Given text and images from home-service project descriptions provided by Thumbtack customers, we build embeddings-based softmax models that predict the professional category (e.g., handyman, bathroom remodeling) associated with each problem description. We then compare against prompts that ask state-of-the-art LLM models to solve the same problem. We find that the embeddings approach outperforms the best LLM prompts in terms of accuracy, calibration, latency, and financial cost. In particular, the embeddings approach has 49.5% higher accuracy than the prompting approach, and its superiority is consistent across text-only, image-only, and text-image problem descriptions. Furthermore, it yields well-calibrated probabilities, which we later use as confidence signals to provide contextualized user experience during deployment. On the contrary, prompting scores are overly uninformative. Finally, the embeddings approach is 14 and 81 times faster than prompting in processing images and text respectively, while under realistic deployment assumptions, it can be up to 10 times cheaper. Based on these results, we deployed a variation of the embeddings approach, and through A/B testing we observed performance consistent with our offline analysis. Our study shows that for multiclass classification problems that can leverage proprietary datasets, an embeddings-based approach may yield unequivocally better results. Hence, scientists, practitioners, engineers, and business leaders can use our study to go beyond the hype and consider appropriate predictive models for their classification use cases.
Abstract（参考訳）: 従来の分類アプローチは、AIの誇大宣伝の時代とは無関係なのだろうか? 予測モデルがLLMのプロンプトベースのフレームワークを一様に上回るマルチクラス分類問題が存在することを示す。 Thumbtackの顧客が提供するホームサービスプロジェクトの記述からテキストとイメージが与えられたら、各問題記述に関連するプロフェッショナルカテゴリ(例えば、ハンディマン、バスルームリモデリング)を予測する組み込みベースのソフトマックスモデルを構築します。次に、最先端のLCMモデルに同じ問題を解決するよう求めるプロンプトと比較する。埋め込みアプローチは、精度、キャリブレーション、レイテンシ、金銭的コストの観点から、最高のLCMプロンプトよりも優れていることが分かりました。特に、埋め込みアプローチはプロンプトアプローチよりも49.5%高い精度で、その優位性はテキストのみ、画像のみ、およびテキストイメージの問題記述間で一致している。さらに、うまく校正された確率が得られ、後から信頼性信号として使用して、デプロイメント中にコンテキスト化されたユーザエクスペリエンスを提供します。逆に、プロンプトのスコアは過度に非形式的だ。最後に、埋め込みアプローチは、イメージとテキストの処理をそれぞれ促すよりも14倍、81倍速く、現実的なデプロイメント仮定では、最大10倍のコストがかかる。これらの結果から,組込みアプローチのバリエーションをデプロイし,A/Bテストを通じて,オフライン解析と性能の整合性を確認した。本研究は,プロプライエタリなデータセットを活用可能なマルチクラス分類問題に対して,埋め込み型アプローチが不当に優れた結果をもたらす可能性を示唆している。したがって、科学者、実践者、エンジニア、そしてビジネスリーダーは、私たちの研究を利用して誇大広告を超えて、分類ユースケースの適切な予測モデルを考えることができます。

関連論文リスト

Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes [20.20764453136706]
大規模言語モデル(LLM)は、しばしばテキストを評価するために自動判断器として使用される。本稿では,2つのプロンプト間の差異を利用して学習した線形分類プローブを用いて,潜在知識にアクセスし,より正確な選好を抽出する手法を提案する。
論文参考訳（メタデータ） (2025-03-22T12:35:25Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文参考訳（メタデータ） (2024-06-18T13:17:26Z)
Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文参考訳（メタデータ） (2024-06-11T06:53:19Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。 11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文参考訳（メタデータ） (2024-05-13T16:52:17Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Investigating the Limitation of CLIP Models: The Worst-Performing Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T05:37:33Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは予測分布を用いて最大限の確率で書き起こしを求める最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。細調整されたASRモデルの性能を向上させる復号法を提案する。
論文参考訳（メタデータ） (2022-12-27T06:42:26Z)
Beyond prompting: Making Pre-trained Language Models Better Zero-shot Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文参考訳（メタデータ） (2022-10-29T16:01:51Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。