論文の概要: Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques
- arxiv url: http://arxiv.org/abs/2601.08302v1
- Date: Tue, 13 Jan 2026 07:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.105783
- Title: Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques
- Title(参考訳): 高度なプロンプト工学的手法による大規模言語モデルにおける感性分類と皮肉検出の強化
- Authors: Marvin Schmitt, Anne Schwerk, Sebastian Lempert,
- Abstract要約: 本研究は,大規模言語モデル(LLM)の強化のためのプロンプトエンジニアリングの利用について検討する。
少数ショット学習、チェーン・オブ・シント・プロンプト、ベースラインに対する自己整合性といった高度なプロンプト技術を評価する。
その結果, GPT-4o-miniとチェーン・オブ・シートでは数発のアプローチが優れ, gemini-1.5-flashでは最大46%の皮肉検出が促進された。
- 参考スコア(独自算出の注目度): 1.7077661158850292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the use of prompt engineering to enhance large language models (LLMs), specifically GPT-4o-mini and gemini-1.5-flash, in sentiment analysis tasks. It evaluates advanced prompting techniques like few-shot learning, chain-of-thought prompting, and self-consistency against a baseline. Key tasks include sentiment classification, aspect-based sentiment analysis, and detecting subtle nuances such as irony. The research details the theoretical background, datasets, and methods used, assessing performance of LLMs as measured by accuracy, recall, precision, and F1 score. Findings reveal that advanced prompting significantly improves sentiment analysis, with the few-shot approach excelling in GPT-4o-mini and chain-of-thought prompting boosting irony detection in gemini-1.5-flash by up to 46%. Thus, while advanced prompting techniques overall improve performance, the fact that few-shot prompting works best for GPT-4o-mini and chain-of-thought excels in gemini-1.5-flash for irony detection suggests that prompting strategies must be tailored to both the model and the task. This highlights the importance of aligning prompt design with both the LLM's architecture and the semantic complexity of the task.
- Abstract(参考訳): 本研究では,感情分析タスクにおける大規模言語モデル,特に GPT-4o-mini と gemini-1.5-flash の活用について検討した。
少数ショット学習、チェーン・オブ・シント・プロンプト、ベースラインに対する自己整合性といった高度なプロンプト技術を評価する。
主なタスクは、感情分類、アスペクトベースの感情分析、皮肉のような微妙なニュアンスの検出である。
この研究は、LLMの性能を精度、リコール、精度、F1スコアで測定した理論的背景、データセット、および方法について詳述している。
その結果, GPT-4o-miniとチェーン・オブ・シートでは数発のアプローチが優れ, gemini-1.5-flashでは最大46%の皮肉検出が促進された。
したがって、先進的なプロンプト技術は全体的に性能を向上させるが、GPT-4o-miniとチェーン・オブ・シントでは、皮肉な検出のためにgemini-1.5-flashが最善であるという事実は、プロンプト戦略はモデルとタスクの両方に合わせる必要があることを示唆している。
このことは、LCMのアーキテクチャとタスクの意味的な複雑さの両方に即時設計を合わせることの重要性を強調している。
関連論文リスト
- DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのフレームワークであるDETAILを紹介する。
我々は、GPT-4を用いてマルチレベルプロンプトを生成し、パープレキシティによる特異性を定量化し、GPTに基づく意味的等価性を用いて正当性を評価する。
GPT-4とO3-miniをまたいだ30の新たな推論タスクの実験では、特に小さなモデルや手続きタスクにおいて、特異性によって精度が向上することが示されている。
論文 参考訳(メタデータ) (2025-12-01T22:28:39Z) - Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。
CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文 参考訳(メタデータ) (2025-10-17T16:53:09Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA [0.0]
本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
論文 参考訳(メタデータ) (2025-03-25T19:58:25Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。