論文の概要: LLMs for Targeted Sentiment in News Headlines: Exploring Different
Levels of Prompt Prescriptiveness
- arxiv url: http://arxiv.org/abs/2403.00418v1
- Date: Fri, 1 Mar 2024 10:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:34:14.808727
- Title: LLMs for Targeted Sentiment in News Headlines: Exploring Different
Levels of Prompt Prescriptiveness
- Title(参考訳): ニュース見出しにおける目標知覚のためのLLM:プロンプト規範性の異なるレベルを探る
- Authors: Jana Juro\v{s}, Laura Majer, Jan \v{S}najder
- Abstract要約: ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。
微調整エンコーダモデルは良好なTSA性能を示すが、その背景知識は限られている。
ニュース見出しのTSAにおけるLCMの性能に及ぼすプロンプトデザインの影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: News headlines often evoke sentiment by intentionally portraying entities in
particular ways, making targeted sentiment analysis (TSA) of headlines a
worthwhile but difficult task. Fine-tuned encoder models show satisfactory TSA
performance, but their background knowledge is limited, and they require a
labeled dataset. LLMs offer a potentially universal solution for TSA due to
their broad linguistic and world knowledge along with in-context learning
abilities, yet their performance is heavily influenced by prompt design.
Drawing parallels with annotation paradigms for subjective tasks, we explore
the influence of prompt design on the performance of LLMs for TSA of news
headlines. We evaluate the predictive accuracy of state-of-the-art LLMs using
prompts with different levels of prescriptiveness, ranging from plain zero-shot
to elaborate few-shot prompts matching annotation guidelines. Recognizing the
subjective nature of TSA, we evaluate the ability of LLMs to quantify
predictive uncertainty via calibration error and correlation to human
inter-annotator agreement. We find that, except for few-shot prompting,
calibration and F1-score improve with increased prescriptiveness, but the
optimal level depends on the model.
- Abstract(参考訳): ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。
微調整エンコーダモデルは良好なTSA性能を示すが、その背景知識は限られており、ラベル付きデータセットが必要である。
LLMは、幅広い言語的・世界的知識と文脈内学習能力により、TSAに潜在的に普遍的なソリューションを提供するが、それらの性能は、迅速な設計に大きく影響されている。
主観的タスクのためのアノテーションパラダイムと平行に描画し、ニュース見出しのTSAのためのLCMの性能に及ぼすプロンプトデザインの影響を考察する。
我々は,平易なゼロショットから精巧な少数ショットのプロンプトマッチングガイドラインまで,説明性の異なるプロンプトを用いて,最先端LPMの予測精度を評価する。
TSAの主観的性質を認識し,キャリブレーション誤差による予測不確かさの定量化と,アノテータ間の合意との相関性を評価する。
少ないプロンプト,キャリブレーション,f1-scoreを除くと,規範性が向上するが,最適レベルはモデルに依存する。
関連論文リスト
- The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and
Calibration Limitations of LLMs in Implicit Hate Speech Detection [31.831677567088782]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。