論文の概要: LLMs for Targeted Sentiment in News Headlines: Exploring Different
Levels of Prompt Prescriptiveness
- arxiv url: http://arxiv.org/abs/2403.00418v1
- Date: Fri, 1 Mar 2024 10:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:34:14.808727
- Title: LLMs for Targeted Sentiment in News Headlines: Exploring Different
Levels of Prompt Prescriptiveness
- Title(参考訳): ニュース見出しにおける目標知覚のためのLLM:プロンプト規範性の異なるレベルを探る
- Authors: Jana Juro\v{s}, Laura Majer, Jan \v{S}najder
- Abstract要約: ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。
微調整エンコーダモデルは良好なTSA性能を示すが、その背景知識は限られている。
ニュース見出しのTSAにおけるLCMの性能に及ぼすプロンプトデザインの影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: News headlines often evoke sentiment by intentionally portraying entities in
particular ways, making targeted sentiment analysis (TSA) of headlines a
worthwhile but difficult task. Fine-tuned encoder models show satisfactory TSA
performance, but their background knowledge is limited, and they require a
labeled dataset. LLMs offer a potentially universal solution for TSA due to
their broad linguistic and world knowledge along with in-context learning
abilities, yet their performance is heavily influenced by prompt design.
Drawing parallels with annotation paradigms for subjective tasks, we explore
the influence of prompt design on the performance of LLMs for TSA of news
headlines. We evaluate the predictive accuracy of state-of-the-art LLMs using
prompts with different levels of prescriptiveness, ranging from plain zero-shot
to elaborate few-shot prompts matching annotation guidelines. Recognizing the
subjective nature of TSA, we evaluate the ability of LLMs to quantify
predictive uncertainty via calibration error and correlation to human
inter-annotator agreement. We find that, except for few-shot prompting,
calibration and F1-score improve with increased prescriptiveness, but the
optimal level depends on the model.
- Abstract(参考訳): ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。
微調整エンコーダモデルは良好なTSA性能を示すが、その背景知識は限られており、ラベル付きデータセットが必要である。
LLMは、幅広い言語的・世界的知識と文脈内学習能力により、TSAに潜在的に普遍的なソリューションを提供するが、それらの性能は、迅速な設計に大きく影響されている。
主観的タスクのためのアノテーションパラダイムと平行に描画し、ニュース見出しのTSAのためのLCMの性能に及ぼすプロンプトデザインの影響を考察する。
我々は,平易なゼロショットから精巧な少数ショットのプロンプトマッチングガイドラインまで,説明性の異なるプロンプトを用いて,最先端LPMの予測精度を評価する。
TSAの主観的性質を認識し,キャリブレーション誤差による予測不確かさの定量化と,アノテータ間の合意との相関性を評価する。
少ないプロンプト,キャリブレーション,f1-scoreを除くと,規範性が向上するが,最適レベルはモデルに依存する。
関連論文リスト
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways [3.779027297957693]
我々は,迅速な設計が社会科学アノテーションの遵守と正確性に与える影響を検証した。
以上の結果から,LSMのコンプライアンスと精度は極めて素早い依存性があることが示唆された。
この研究は、研究者や実践者の警告と実践のガイドとして機能する。
論文 参考訳(メタデータ) (2024-06-17T18:01:43Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - The language of prompting: What linguistic properties make a prompt
successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。
しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。
モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文 参考訳(メタデータ) (2023-11-03T15:03:36Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。