論文の概要: LLMs for Targeted Sentiment in News Headlines: Exploring the Descriptive-Prescriptive Dilemma
- arxiv url: http://arxiv.org/abs/2403.00418v3
- Date: Wed, 30 Oct 2024 12:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:23.934798
- Title: LLMs for Targeted Sentiment in News Headlines: Exploring the Descriptive-Prescriptive Dilemma
- Title(参考訳): ニュース見出しにおける目標感のLLM--記述-規範的ジレンマを探る
- Authors: Jana Juroš, Laura Majer, Jan Šnajder,
- Abstract要約: 本稿では,ニュース見出しの感情分析のために,最先端のLCMと微調整エンコーダモデルの精度を比較した。
我々は、ゼロショットから精巧な数ショットのプロンプトまで、プロンプトの規範性によってパフォーマンスがどのように影響を受けるかを分析する。
LLMは記述的データセット上で微調整エンコーダよりも優れており、キャリブレーションやF1スコアは記述性の向上とともに一般的に改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: News headlines often evoke sentiment by intentionally portraying entities in particular ways, making targeted sentiment analysis (TSA) of headlines a worthwhile but difficult task. Due to its subjectivity, creating TSA datasets can involve various annotation paradigms, from descriptive to prescriptive, either encouraging or limiting subjectivity. LLMs are a good fit for TSA due to their broad linguistic and world knowledge and in-context learning abilities, yet their performance depends on prompt design. In this paper, we compare the accuracy of state-of-the-art LLMs and fine-tuned encoder models for TSA of news headlines using descriptive and prescriptive datasets across several languages. Exploring the descriptive--prescriptive continuum, we analyze how performance is affected by prompt prescriptiveness, ranging from plain zero-shot to elaborate few-shot prompts. Finally, we evaluate the ability of LLMs to quantify uncertainty via calibration error and comparison to human label variation. We find that LLMs outperform fine-tuned encoders on descriptive datasets, while calibration and F1-score generally improve with increased prescriptiveness, yet the optimal level varies.
- Abstract(参考訳): ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。
主観性のため、TSAデータセットの作成には、主観性を促進するか制限する、記述的から規範的まで、様々なアノテーションのパラダイムが伴う。
LLMは広い言語的・世界的知識と文脈内学習能力のためにTSAに適しているが、その性能は素早い設計に依存している。
本稿では,複数の言語にまたがる記述的および規範的データセットを用いて,最新のLLMとニュース見出しのTSAのための微調整エンコーダモデルの精度を比較した。
記述型-記述型連続体を探索し、平易なゼロショットから精巧な少数ショットプロンプトまで、即時的な説明性によってパフォーマンスがどのように影響を受けるかを分析する。
最後に, LLMのキャリブレーション誤差による不確かさの定量化と, ラベル変動との比較を行った。
LLMは記述的データセット上で微調整エンコーダよりも優れており、キャリブレーションとF1スコアは規範性の向上とともに一般的に改善されているが、最適レベルは様々である。
関連論文リスト
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways [3.779027297957693]
我々は,迅速な設計が社会科学アノテーションの遵守と正確性に与える影響を検証した。
以上の結果から,LSMのコンプライアンスと精度は極めて素早い依存性があることが示唆された。
この研究は、研究者や実践者の警告と実践のガイドとして機能する。
論文 参考訳(メタデータ) (2024-06-17T18:01:43Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - The language of prompting: What linguistic properties make a prompt
successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。
しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。
モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文 参考訳(メタデータ) (2023-11-03T15:03:36Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。