論文の概要: A Simple and Effective Framework for Strict Zero-Shot Hierarchical
Classification
- arxiv url: http://arxiv.org/abs/2305.15282v1
- Date: Wed, 24 May 2023 16:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:30:06.675013
- Title: A Simple and Effective Framework for Strict Zero-Shot Hierarchical
Classification
- Title(参考訳): 厳密なゼロショット階層分類のための単純かつ効果的な枠組み
- Authors: Rohan Bhambhoria, Lei Chen, Xiaodan Zhu
- Abstract要約: 大規模言語モデル(LLM)は、特にゼロまたは少数ショット設定において、ベンチマークタスクで強力なパフォーマンスを達成した。
階層的なデータセットに対して,より示唆的なロングテール予測タスクを提案する。
本手法は,リソース集約的なプロセスである更新を一切必要とせず,複数のデータセットにまたがる高いパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 23.109264015761873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have achieved strong
performance on benchmark tasks, especially in zero or few-shot settings.
However, these benchmarks often do not adequately address the challenges posed
in the real-world, such as that of hierarchical classification. In order to
address this challenge, we propose refactoring conventional tasks on
hierarchical datasets into a more indicative long-tail prediction task. We
observe LLMs are more prone to failure in these cases. To address these
limitations, we propose the use of entailment-contradiction prediction in
conjunction with LLMs, which allows for strong performance in a strict
zero-shot setting. Importantly, our method does not require any parameter
updates, a resource-intensive process and achieves strong performance across
multiple datasets.
- Abstract(参考訳): 近年、大規模言語モデル(LLM)は、特にゼロまたは少数ショット設定において、ベンチマークタスクにおいて強力なパフォーマンスを実現している。
しかしながら、これらのベンチマークは、階層的な分類のような現実世界の課題に適切に対処しないことが多い。
この課題に対処するために,階層型データセットの従来のタスクを,より示唆的なロングテール予測タスクにリファクタリングすることを提案する。
これらの場合、LSMは失敗しがちである。
これらの制約に対処するため、厳密なゼロショット設定で高い性能を実現するLLMと併用してエンテーメント・コントラディション予測(entailment-contradiction prediction)を提案する。
重要なことに、このメソッドはパラメータ更新やリソース集約的なプロセスを必要としず、複数のデータセットにまたがる強力なパフォーマンスを実現します。
関連論文リスト
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。
しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。
本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文 参考訳(メタデータ) (2023-12-26T21:17:46Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot
Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。
しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。
本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文 参考訳(メタデータ) (2023-05-18T17:48:03Z) - Towards Practical Few-Shot Query Sets: Transductive Minimum Description
Length Inference [0.0]
そこで本研究では,PrimAl Dual Minimum Description LEngth (PADDLE) の定式化について述べる。
制約のあるMDLライクな目的は、いくつかのタスクのデータに適合する有効なクラスのみを保ちながら、起こりうる多数のクラス間の競争を促進する。
論文 参考訳(メタデータ) (2022-10-26T08:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。