論文の概要: Navigating Prompt Complexity for Zero-Shot Classification: A Study of
Large Language Models in Computational Social Science
- arxiv url: http://arxiv.org/abs/2305.14310v1
- Date: Tue, 23 May 2023 17:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:46:36.076219
- Title: Navigating Prompt Complexity for Zero-Shot Classification: A Study of
Large Language Models in Computational Social Science
- Title(参考訳): ゼロショット分類のための素早い複雑性の探索--計算社会科学における大規模言語モデルの研究
- Authors: Yida Mu, Ben P. Wu, William Thorne, Ambrose Robinson, Nikolaos
Aletras, Carolina Scarton, Kalina Bontcheva, Xingyi Song
- Abstract要約: 本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
- 参考スコア(独自算出の注目度): 21.06586724325659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) have exhibited impressive
language understanding and the capacity to generate responses that follow
specific instructions. However, due to the computational demands associated
with training these models, their applications often rely on zero-shot
settings. In this paper, we evaluate the zero-shot performance of two publicly
accessible LLMs, ChatGPT and OpenAssistant, in the context of Computational
Social Science classification tasks, while also investigating the effects of
various prompting strategies. Our experiment considers the impact of prompt
complexity, including the effect of incorporating label definitions into the
prompt, using synonyms for label names, and the influence of integrating past
memories during the foundation model training. The findings indicate that in a
zero-shot setting, the current LLMs are unable to match the performance of
smaller, fine-tuned baseline transformer models (such as BERT). Additionally,
we find that different prompting strategies can significantly affect
classification accuracy, with variations in accuracy and F1 scores exceeding
10%.
- Abstract(参考訳): LLM(Instruction-tuned Large Language Models)は、言語理解と特定の命令に従う応答を生成する能力を示す。
しかしながら、これらのモデルのトレーニングに関連する計算要求のため、それらのアプリケーションはゼロショット設定に依存することが多い。
本稿では,計算社会科学の分類課題の文脈において,公開アクセス可能な2つのllmであるchatgptとopen assistantのゼロショット性能を評価するとともに,様々なプロンプト戦略の効果について検討する。
本実験では,ラベル定義をプロンプトに組み込む効果,ラベル名の同義語を用いる効果,基礎モデルトレーニングにおける過去の記憶の統合効果など,プロンプトの複雑さの影響について考察する。
その結果、ゼロショット設定では、現在のLLMはより小型で微調整されたベースライントランスモデル(BERTなど)の性能と一致しないことがわかった。
さらに,異なるプロンプト戦略が分類精度に大きく影響し,精度の変動とf1スコアが10%を超えることが判明した。
関連論文リスト
- Description Boosting for Zero-Shot Entity and Relation Classification [5.8959034854546815]
我々は、ゼロショット学習(ZSL)手法が、エンティティ(または関係)のテキスト記述に敏感であることを示す。
本稿では、初期記述のバリエーションを生成するための戦略と、記述拡張によるゼロショットモデルの予測を向上するアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T12:09:44Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - The language of prompting: What linguistic properties make a prompt
successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。
しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。
モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文 参考訳(メタデータ) (2023-11-03T15:03:36Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Leveraging Codebook Knowledge with NLI and ChatGPT for Zero-Shot Political Relation Classification [10.896514317144499]
本研究では,既存のコードブックと自然言語推論(NLI)に基づくZSPモデルを用いたゼロショット学習手法の評価を行った。
実験の結果、ChatGPTの強みと限界が明らかとなり、ZSPの辞書ベースの手法の性能が著しく低下した。
本研究は,移動学習と既存分野の専門知識を活用し,研究効率と拡張性を高めることの有効性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T16:41:53Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。