論文の概要: Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science
- arxiv url: http://arxiv.org/abs/2305.14310v3
- Date: Sun, 24 Mar 2024 18:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:48:07.939460
- Title: Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science
- Title(参考訳): ゼロショット分類のためのプロンプト複雑性のナビゲート:計算社会科学における大規模言語モデルの検討
- Authors: Yida Mu, Ben P. Wu, William Thorne, Ambrose Robinson, Nikolaos Aletras, Carolina Scarton, Kalina Bontcheva, Xingyi Song,
- Abstract要約: 本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
- 参考スコア(独自算出の注目度): 27.727207443432278
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific prompts. However, due to the computational demands associated with training these models, their applications often adopt a zero-shot setting. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of six Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiments investigate the impact of prompt complexity, including the effect of incorporating label definitions into the prompt; use of synonyms for label names; and the influence of integrating past memories during foundation model training. The findings indicate that in a zero-shot setting, current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT-large). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10\%.
- Abstract(参考訳): LLM(Instruction-tuned Large Language Model)は印象的な言語理解と、特定のプロンプトに従う応答を生成する能力を示す。
しかしながら、これらのモデルのトレーニングに関連する計算要求のため、それらのアプリケーションはゼロショット設定を採用することが多い。
本稿では,ChatGPTとOpenAssistantという2つの公開LLMのゼロショット性能を,計算社会科学の6つの分類タスクの文脈で評価するとともに,様々なプロンプト戦略の効果についても検討する。
実験では, ラベル定義をインクルードする効果, ラベル名への同義語の使用, 基礎モデルトレーニングにおける過去の記憶の統合の影響など, 迅速な複雑性の影響について検討した。
その結果、ゼロショット設定では、現在のLLMはより小型で微調整されたベースライントランスモデル(BERT-largeなど)の性能と一致しないことがわかった。
さらに、異なるプロンプト戦略が分類精度に大きく影響し、精度とF1スコアが10倍を超えることが判明した。
関連論文リスト
- Description Boosting for Zero-Shot Entity and Relation Classification [5.8959034854546815]
我々は、ゼロショット学習(ZSL)手法が、エンティティ(または関係)のテキスト記述に敏感であることを示す。
本稿では、初期記述のバリエーションを生成するための戦略と、記述拡張によるゼロショットモデルの予測を向上するアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T12:09:44Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメント・チューニング(英: Statement-Tuning)は、有限文の集合として識別的タスクをモデル化し、潜在的なステートメントを識別してラベルを決定するモデルを訓練する手法である。
実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - The language of prompting: What linguistic properties make a prompt
successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。
しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。
モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文 参考訳(メタデータ) (2023-11-03T15:03:36Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Leveraging Codebook Knowledge with NLI and ChatGPT for Zero-Shot Political Relation Classification [10.896514317144499]
本研究では,既存のコードブックと自然言語推論(NLI)に基づくZSPモデルを用いたゼロショット学習手法の評価を行った。
実験の結果、ChatGPTの強みと限界が明らかとなり、ZSPの辞書ベースの手法の性能が著しく低下した。
本研究は,移動学習と既存分野の専門知識を活用し,研究効率と拡張性を高めることの有効性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T16:41:53Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。