論文の概要: Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways
- arxiv url: http://arxiv.org/abs/2406.11980v1
- Date: Mon, 17 Jun 2024 18:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:26:41.620530
- Title: Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways
- Title(参考訳): 計算社会科学課題におけるプロンプト設計の課題 : 予測不可能な方法で
- Authors: Shubham Atreja, Joshua Ashkinaze, Lingyao Li, Julia Mendelsohn, Libby Hemphill,
- Abstract要約: 我々は,迅速な設計が社会科学アノテーションの遵守と正確性に与える影響を検証した。
以上の結果から,LSMのコンプライアンスと精度は極めて素早い依存性があることが示唆された。
この研究は、研究者や実践者の警告と実践のガイドとして機能する。
- 参考スコア(独自算出の注目度): 3.779027297957693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manually annotating data for computational social science tasks can be costly, time-consuming, and emotionally draining. While recent work suggests that LLMs can perform such annotation tasks in zero-shot settings, little is known about how prompt design impacts LLMs' compliance and accuracy. We conduct a large-scale multi-prompt experiment to test how model selection (ChatGPT, PaLM2, and Falcon7b) and prompt design features (definition inclusion, output type, explanation, and prompt length) impact the compliance and accuracy of LLM-generated annotations on four CSS tasks (toxicity, sentiment, rumor stance, and news frames). Our results show that LLM compliance and accuracy are highly prompt-dependent. For instance, prompting for numerical scores instead of labels reduces all LLMs' compliance and accuracy. The overall best prompting setup is task-dependent, and minor prompt changes can cause large changes in the distribution of generated labels. By showing that prompt design significantly impacts the quality and distribution of LLM-generated annotations, this work serves as both a warning and practical guide for researchers and practitioners.
- Abstract(参考訳): 計算社会科学のタスクに手動でアノテートするデータは、コストがかかり、時間がかかり、感情的に排水される可能性がある。
最近の研究は、LCMがゼロショット設定でこのようなアノテーションタスクを実行できることを示唆しているが、設計がLCMのコンプライアンスと正確性にどのように影響するかは分かっていない。
モデル選択(ChatGPT, PaLM2, Falcon7b)と設計特徴(定義包含, 出力タイプ, 説明, 即時長)が, 4つのCSSタスク(毒性, 感情, 噂姿勢, ニュースフレーム)におけるLCM生成アノテーションの適合性と正確性に与える影響を, 大規模マルチプロンプト実験により検証した。
以上の結果から,LSMのコンプライアンスと精度は極めて素早い依存性があることが示唆された。
例えば、ラベルの代わりに数値スコアを求めると、全てのLLMのコンプライアンスと精度が低下する。
全体的な最高のプロンプト設定はタスク依存であり、マイナーなプロンプト変更は生成されたラベルの配布に大きな変更をもたらす可能性がある。
迅速な設計がLLM生成アノテーションの品質と配布に大きな影響を与えることを示すことで、この研究は研究者や実践者にとって警告と実践のガイドとなる。
関連論文リスト
- Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities [8.1022073999821]
いくつかの決定論的タスクにおけるGPT-4の性能の測定について述べる。
タスク・プロンプトや入力集団における一見自明な修正は、サンプリング効果によって説明できるよりもはるかに大きな差をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-09-11T21:48:33Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - LLMs for Targeted Sentiment in News Headlines: Exploring the Descriptive-Prescriptive Dilemma [0.0]
本稿では,ニュース見出しの感情分析のために,最先端のLCMと微調整エンコーダモデルの精度を比較した。
我々は、ゼロショットから精巧な数ショットのプロンプトまで、プロンプトの規範性によってパフォーマンスがどのように影響を受けるかを分析する。
LLMは記述的データセット上で微調整エンコーダよりも優れており、キャリブレーションやF1スコアは記述性の向上とともに一般的に改善されている。
論文 参考訳(メタデータ) (2024-03-01T10:10:34Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Automated Annotation with Generative AI Requires Validation [0.0]
生成型大規模言語モデル(LLM)は、テキストアノテーションの手順を増強するための強力なツールである。
LLMのアノテーションポテンシャルを原則的かつ効率的な方法で活用するためのワークフローを概説する。
テキストアノテーションのLLM性能は有望であるが,データセットとアノテーションの型の両方に高い関連性があることが判明した。
論文 参考訳(メタデータ) (2023-05-31T20:50:45Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。