論文の概要: Navigating the Prompt Space: Improving LLM Classification of Social Science Texts Through Prompt Engineering
- arxiv url: http://arxiv.org/abs/2603.25422v1
- Date: Thu, 26 Mar 2026 13:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.311269
- Title: Navigating the Prompt Space: Improving LLM Classification of Social Science Texts Through Prompt Engineering
- Title(参考訳): プロンプト空間のナビゲーション:プロンプト工学による社会科学テキストのLLM分類の改善
- Authors: Erkan Gunes, Christoffer Florczak, Tevfik Murat Yildirim,
- Abstract要約: 社会科学におけるLarge Language Models (LLMs) を用いたテキスト分類の最近の進歩は,コストを大幅に削減できることを示唆している。
現在のテストでは、パフォーマンスが広範囲に分散しているため、パフォーマンスを最大化する方法という問題に移行します。
本稿では,プロンプトエンジニアリングの3つの側面を体系的に変化させることにより,精度を高めるための可能な経路として,プロンプトコンテキストに焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent developments in text classification using Large Language Models (LLMs) in the social sciences suggest that costs can be cut significantly, while performance can sometimes rival existing computational methods. However, with a wide variance in performance in current tests, we move to the question of how to maximize performance. In this paper, we focus on prompt context as a possible avenue for increasing accuracy by systematically varying three aspects of prompt engineering: label descriptions, instructional nudges, and few shot examples. Across two different examples, our tests illustrate that a minimal increase in prompt context yields the highest increase in performance, while further increases in context only tend to yield marginal performance increases thereafter. Alarmingly, increasing prompt context sometimes decreases accuracy. Furthermore, our tests suggest substantial heterogeneity across models, tasks, and batch size, underlining the need for individual validation of each LLM coding task rather than reliance on general rules.
- Abstract(参考訳): 社会科学におけるLarge Language Models (LLMs) を用いたテキスト分類の最近の進歩は、コストを大幅に削減できる一方で、性能が既存の計算手法に匹敵することがあることを示唆している。
しかし、現在のテストでパフォーマンスが広範囲に分散しているため、パフォーマンスを最大化する方法の問題に移行します。
本稿では,プロンプトエンジニアリングの3つの側面 – ラベル記述, 命令ナッジ, 少数ショット例 – を体系的に変更することにより, 精度を高めるための可能な経路として, プロンプトコンテキストに焦点をあてる。
2つの異なる例で、我々のテストでは、プロンプト・コンテクストの最小増加がパフォーマンスの最大増加をもたらすのに対して、コンテクストのさらなる増加はその後の限界性能の増加をもたらす傾向にある。
アラーム的に、プロンプトコンテキストの増加は、時に精度を低下させる。
さらに,本テストでは,モデル,タスク,バッチサイズ間での相当な不均一性を示唆し,一般的なルールに依存するのではなく,各LLM符号化タスクの個別の検証の必要性を概説した。
関連論文リスト
- Scaling Textual Gradients via Sampling-Based Momentum [59.94928977345951]
Textual Gradient Descent (TGD)フレームワークは、有望なデータ駆動アプローチとして登場した。
トレーニングサンプルの数をスケールすることで結果が改善されるが、後にTGDのパフォーマンスが低下する。
本稿では,テキスト・グラディエント・ Descent with Momentum (TSGD-M) を提案する。
論文 参考訳(メタデータ) (2025-05-31T05:35:45Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。