Fugu-MT 論文翻訳(概要): Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science

論文の概要: Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science

arxiv url: http://arxiv.org/abs/2305.14310v2
Date: Wed, 20 Sep 2023 19:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 19:26:11.612483
Title: Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science
Title（参考訳）: ゼロショット分類のための素早い複雑性の探索--計算社会科学における大規模言語モデルの研究
Authors: Yida Mu, Ben P. Wu, William Thorne, Ambrose Robinson, Nikolaos Aletras, Carolina Scarton, Kalina Bontcheva, Xingyi Song
Abstract要約: 本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
参考スコア（独自算出の注目度）: 28.921423984104287
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific prompts. However, due to the computational demands associated with training these models, their applications often adopt a zero-shot setting. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of six Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiments investigate the impact of prompt complexity, including the effect of incorporating label definitions into the prompt; use of synonyms for label names; and the influence of integrating past memories during foundation model training. The findings indicate that in a zero-shot setting, current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT-large). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10\%.
Abstract（参考訳）: LLM(Instruction-tuned Large Language Model)は印象的な言語理解と、特定のプロンプトに従う応答を生成する能力を示す。しかしながら、これらのモデルのトレーニングに関連する計算要求のため、それらのアプリケーションはゼロショット設定を採用することが多い。本稿では,ChatGPTとOpenAssistantという2つの公開LLMのゼロショット性能を,計算社会科学の6つの分類タスクの文脈で評価するとともに,様々なプロンプト戦略の効果についても検討する。本研究は,ラベル定義をプロンプトに組み込む効果,ラベル名に対する同義語の使用,基礎モデルトレーニングにおける過去の記憶の統合の影響など,プロンプト複雑性の影響について検討した。その結果、ゼロショット設定では、現在のLLMはより小型で微調整されたベースライントランスモデル(BERT-largeなど)の性能と一致しないことがわかった。さらに,異なるプロンプト戦略が分類精度に大きく影響し,精度の変動やf1スコアが10\%を超えることが判明した。

関連論文リスト

CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs [81.79228604962687]
本研究は,小規模のLMが命令チューニングの恩恵を受けることができるかどうかを考察する。我々は,統合的・逐次的なカリキュラムに適用された対話型および質問応答型指導調律データセットを比較した。その結果、命令チューニングは微調整のシナリオでは小さくても一貫した利得をもたらすことが示され、逐次キュリキュラはマージされたデータより優れていた。しかし、改良はゼロショットタスクに一貫して移行するわけではなく、相互作用中心の適応と広範な言語一般化とのトレードオフを示唆している。
論文参考訳（メタデータ） (2025-10-29T10:36:39Z)
Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity [0.764671395172401]
近年のビジョン・ランゲージ・モデル(VLM)は、画像とテキストを共有空間にアライメントすることで、ゼロショットの分類を可能にする。本研究は, 座位, 立位, 歩行・走走の0ショット分類において, 即時特異性がどの程度影響するかを検討する。
論文参考訳（メタデータ） (2025-10-15T09:53:46Z)
Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings [9.763273544617176]
大規模言語モデル(LLM)は、ケース固有の微調整を必要とせずに複雑な対話タスクを処理できることが顕著に示されている。本稿では,この課題に対処するための,シンプルながら効果的な枠組みを提案する。本手法は、意図検出や対話状態追跡などのタスクを含む発話ごとの分類問題に特化して設計されている。
論文参考訳（メタデータ） (2025-03-07T17:46:13Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Think or Step-by-Step? UnZIPping the Black Box in Zero-Shot Prompts [5.397565689903148]
ZIPスコア(Zero-shot Importance of Perturbation score)は,オープンソースモデルとクローズドソースモデルの両方に適用可能な多目的メトリックである。ステップ・バイ・ステップ」と「思考」の両方が高いZIPスコアを示す一方で、モデルやタスクによって影響が強くなることを示す。
論文参考訳（メタデータ） (2025-02-05T18:04:29Z)
Description Boosting for Zero-Shot Entity and Relation Classification [5.8959034854546815]
我々は、ゼロショット学習(ZSL)手法が、エンティティ(または関係)のテキスト記述に敏感であることを示す。本稿では、初期記述のバリエーションを生成するための戦略と、記述拡張によるゼロショットモデルの予測を向上するアンサンブル手法を提案する。
論文参考訳（メタデータ） (2024-06-04T12:09:44Z)
Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T14:05:03Z)
The language of prompting: What linguistic properties make a prompt successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文参考訳（メタデータ） (2023-11-03T15:03:36Z)
Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文参考訳（メタデータ） (2023-10-17T15:03:30Z)
Investigating the Limitation of CLIP Models: The Worst-Performing Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T05:37:33Z)
Leveraging Codebook Knowledge with NLI and ChatGPT for Zero-Shot Political Relation Classification [10.896514317144499]
本研究では,既存のコードブックと自然言語推論(NLI)に基づくZSPモデルを用いたゼロショット学習手法の評価を行った。実験の結果、ChatGPTの強みと限界が明らかとなり、ZSPの辞書ベースの手法の性能が著しく低下した。本研究は,移動学習と既存分野の専門知識を活用し,研究効率と拡張性を高めることの有効性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T16:41:53Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文参考訳（メタデータ） (2023-05-24T01:40:57Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。