論文の概要: LLMs' Classification Performance is Overclaimed
- arxiv url: http://arxiv.org/abs/2406.16203v1
- Date: Sun, 23 Jun 2024 19:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:34:57.469545
- Title: LLMs' Classification Performance is Overclaimed
- Title(参考訳): LLMの分類性能は誇張されている
- Authors: Hanzi Xu, Renze Lou, Jiangshu Du, Vahid Mahzoon, Elmira Talebianaraki, Zhuoan Zhou, Elizabeth Garrison, Slobodan Vucetic, Wenpeng Yin,
- Abstract要約: AIや人間のために設計された多くの分類タスクでは、ゴールドラベルはデフォルトでラベル空間に含まれる。
この標準設定は、伝統的に高度なAI、特に大規模言語モデル(LLM)の強力なパフォーマンスを強調してきた。
本稿では, LLMの認識性能は, 課題の予測的理解を示すことができないため, 過度に評価されていることを論じる。
- 参考スコア(独自算出の注目度): 14.141803470808824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many classification tasks designed for AI or human to solve, gold labels are typically included within the label space by default, often posed as "which of the following is correct?" This standard setup has traditionally highlighted the strong performance of advanced AI, particularly top-performing Large Language Models (LLMs), in routine classification tasks. However, when the gold label is intentionally excluded from the label space, it becomes evident that LLMs still attempt to select from the available label candidates, even when none are correct. This raises a pivotal question: Do LLMs truly demonstrate their intelligence in understanding the essence of classification tasks? In this study, we evaluate both closed-source and open-source LLMs across representative classification tasks, arguing that the perceived performance of LLMs is overstated due to their inability to exhibit the expected comprehension of the task. This paper makes a threefold contribution: i) To our knowledge, this is the first work to identify the limitations of LLMs in classification tasks when gold labels are absent. We define this task as Classify-w/o-Gold and propose it as a new testbed for LLMs. ii) We introduce a benchmark, Know-No, comprising two existing classification tasks and one new task, to evaluate Classify-w/o-Gold. iii) This work defines and advocates for a new evaluation metric, OmniAccuracy, which assesses LLMs' performance in classification tasks both when gold labels are present and absent.
- Abstract(参考訳): AIや人間のために設計された多くの分類タスクでは、金のラベルはデフォルトでラベル空間に含まれており、しばしば「次のどれが正しいか」と表される。
この標準設定は伝統的に、日常的な分類タスクにおいて高度なAI、特に最高パフォーマンスのLarge Language Model(LLM)の強いパフォーマンスを強調してきた。
しかし、ゴールドラベルが意図的にラベル空間から除外された場合、LLMがまだ使用可能なラベル候補から選び出そうとしていることが明らかになる。
LLMは、分類タスクの本質を理解する上で、その知性を真に示しているか?
そこで本研究では,LLMの認識性能が過大評価されていることを論じ,オープンソースLLMとオープンソースLLMの両方を代表的分類タスクで評価した。
この論文は3倍の貢献をする。
一 私たちの知る限り、金のラベルが存在しないときの分類作業における LLM の限界を特定するのは、これが初めてです。
我々は、このタスクをClassify-w/o-Goldと定義し、LLMの新しいテストベッドとして提案する。
ii)既存の2つの分類タスクと1つの新しいタスクからなるベンチマーク「ノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウノウ
三 この研究は、金ラベルの有無にかかわらず、分類作業におけるLCMのパフォーマンスを評価する新たな評価指標であるOmniAccuracyを定義し、提唱するものである。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - SkillAggregation: Reference-free LLM-Dependent Aggregation [14.46141987797362]
大規模言語モデル(LLM)は、NLPタスクの評価にますます使用される。
最近の研究は、審査員が性能を向上させるために複数のLLMを使うことを示唆している。
この研究は、参照ラベルが使用できない複数のシステムからの予測を集約することに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-14T07:13:47Z) - On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。
LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。
本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Paraphrase and Aggregate with Large Language Models for Minimizing Intent Classification Errors [19.601600598570215]
大規模言語モデル(LLM)は,大規模な多クラス分類タスクにおいて高い性能を達成できるが,いまだに分類誤りを発生させ,さらに悪化させ,語彙外なクラスラベルを生成する。
本稿では、LLMが入力クエリ(並列クエリ)の複数のパラフレーズを生成するParaphrase and AGgregate (PAG)-LLMアプローチを提案する。
PAG-LLM は LLM が不確実なハードケースでは特に有効であり, 致命的誤分類と幻覚的ラベル生成誤差を低減させる。
論文 参考訳(メタデータ) (2024-06-24T22:30:26Z) - Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving [86.04158840879727]
そこで我々は,強力なLLMを付与し,有能なスキルラベルを数学の質問に割り当てるための,プロンプト誘導型対話手法を開発した。
次に、セマンティッククラスタリングを行い、スキルラベルの粗いファミリーを取得する。
これらの粗いスキルラベルは人間に解釈可能である。
論文 参考訳(メタデータ) (2024-05-20T17:45:26Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。