Fugu-MT 論文翻訳(概要): Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

論文の概要: Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

arxiv url: http://arxiv.org/abs/2601.08302v1
Date: Tue, 13 Jan 2026 07:45:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-14 18:27:19.105783
Title: Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques
Title（参考訳）: 高度なプロンプト工学的手法による大規模言語モデルにおける感性分類と皮肉検出の強化
Authors: Marvin Schmitt, Anne Schwerk, Sebastian Lempert,
Abstract要約: 本研究は,大規模言語モデル(LLM)の強化のためのプロンプトエンジニアリングの利用について検討する。少数ショット学習、チェーン・オブ・シント・プロンプト、ベースラインに対する自己整合性といった高度なプロンプト技術を評価する。その結果, GPT-4o-miniとチェーン・オブ・シートでは数発のアプローチが優れ, gemini-1.5-flashでは最大46%の皮肉検出が促進された。
参考スコア（独自算出の注目度）: 1.7077661158850292
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study investigates the use of prompt engineering to enhance large language models (LLMs), specifically GPT-4o-mini and gemini-1.5-flash, in sentiment analysis tasks. It evaluates advanced prompting techniques like few-shot learning, chain-of-thought prompting, and self-consistency against a baseline. Key tasks include sentiment classification, aspect-based sentiment analysis, and detecting subtle nuances such as irony. The research details the theoretical background, datasets, and methods used, assessing performance of LLMs as measured by accuracy, recall, precision, and F1 score. Findings reveal that advanced prompting significantly improves sentiment analysis, with the few-shot approach excelling in GPT-4o-mini and chain-of-thought prompting boosting irony detection in gemini-1.5-flash by up to 46%. Thus, while advanced prompting techniques overall improve performance, the fact that few-shot prompting works best for GPT-4o-mini and chain-of-thought excels in gemini-1.5-flash for irony detection suggests that prompting strategies must be tailored to both the model and the task. This highlights the importance of aligning prompt design with both the LLM's architecture and the semantic complexity of the task.
Abstract（参考訳）: 本研究では,感情分析タスクにおける大規模言語モデル,特に GPT-4o-mini と gemini-1.5-flash の活用について検討した。少数ショット学習、チェーン・オブ・シント・プロンプト、ベースラインに対する自己整合性といった高度なプロンプト技術を評価する。主なタスクは、感情分類、アスペクトベースの感情分析、皮肉のような微妙なニュアンスの検出である。この研究は、LLMの性能を精度、リコール、精度、F1スコアで測定した理論的背景、データセット、および方法について詳述している。その結果, GPT-4o-miniとチェーン・オブ・シートでは数発のアプローチが優れ, gemini-1.5-flashでは最大46%の皮肉検出が促進された。したがって、先進的なプロンプト技術は全体的に性能を向上させるが、GPT-4o-miniとチェーン・オブ・シントでは、皮肉な検出のためにgemini-1.5-flashが最善であるという事実は、プロンプト戦略はモデルとタスクの両方に合わせる必要があることを示唆している。このことは、LCMのアーキテクチャとタスクの意味的な複雑さの両方に即時設計を合わせることの重要性を強調している。

関連論文リスト

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs [3.925313161884993]
Word Sense Disambiguation (WSD)は、自然言語処理(NLP)における重要な課題である。本研究では,低パラメータ大言語モデル(4Bパラメータ)が微調整戦略により同等の結果が得られるかどうかを検討する。以上の結果から,Chain-of-Thought(CoT)に基づく推論と近接語解析を併用することで,ゼロショット設定でGPT-4-Turboに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2026-03-05T17:27:42Z)
DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのフレームワークであるDETAILを紹介する。我々は、GPT-4を用いてマルチレベルプロンプトを生成し、パープレキシティによる特異性を定量化し、GPTに基づく意味的等価性を用いて正当性を評価する。 GPT-4とO3-miniをまたいだ30の新たな推論タスクの実験では、特に小さなモデルや手続きタスクにおいて、特異性によって精度が向上することが示されている。
論文参考訳（メタデータ） (2025-12-01T22:28:39Z)
Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。 GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。 CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文参考訳（メタデータ） (2025-10-17T16:53:09Z)
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文参考訳（メタデータ） (2025-09-27T08:59:31Z)
Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文参考訳（メタデータ） (2025-09-02T14:21:59Z)
PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。 LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文参考訳（メタデータ） (2025-07-25T00:15:31Z)
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA [0.0]
本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
論文参考訳（メタデータ） (2025-03-25T19:58:25Z)
ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文参考訳（メタデータ） (2024-10-02T21:42:35Z)
DiffNAS: Bootstrapping Diffusion Models by Prompting for Better Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。 GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文参考訳（メタデータ） (2023-10-07T09:10:28Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。