論文の概要: The Few-shot Dilemma: Over-prompting Large Language Models
- arxiv url: http://arxiv.org/abs/2509.13196v1
- Date: Tue, 16 Sep 2025 16:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.160725
- Title: The Few-shot Dilemma: Over-prompting Large Language Models
- Title(参考訳): 数発のジレンマ: オーバープロンプティングな大規模言語モデル
- Authors: Yongjian Tang, Doruk Tuncel, Christian Koerner, Thomas Runkler,
- Abstract要約: 過剰プロンプティング(Over-prompting)は、過剰な例がパフォーマンスを低下させる現象であり、コンテキスト内数発の学習に関する従来の知恵に挑戦する。
この数発のジレンマを解析するために,3つの標準的な数発選択手法を利用したプロンプトフレームワークを概説する。
実験の結果、過剰なドメイン特化例を組み込むことで、ある種の大規模言語モデルの性能をパラドックス的に劣化させることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.15399429731150377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-prompting, a phenomenon where excessive examples in prompts lead to diminished performance in Large Language Models (LLMs), challenges the conventional wisdom about in-context few-shot learning. To investigate this few-shot dilemma, we outline a prompting framework that leverages three standard few-shot selection methods - random sampling, semantic embedding, and TF-IDF vectors - and evaluate these methods across multiple LLMs, including GPT-4o, GPT-3.5-turbo, DeepSeek-V3, Gemma-3, LLaMA-3.1, LLaMA-3.2, and Mistral. Our experimental results reveal that incorporating excessive domain-specific examples into prompts can paradoxically degrade performance in certain LLMs, which contradicts the prior empirical conclusion that more relevant few-shot examples universally benefit LLMs. Given the trend of LLM-assisted software engineering and requirement analysis, we experiment with two real-world software requirement classification datasets. By gradually increasing the number of TF-IDF-selected and stratified few-shot examples, we identify their optimal quantity for each LLM. This combined approach achieves superior performance with fewer examples, avoiding the over-prompting problem, thus surpassing the state-of-the-art by 1% in classifying functional and non-functional requirements.
- Abstract(参考訳): オーバープロンプティング(英: Over-prompting)とは、大規模言語モデル(LLM)における過剰な例によってパフォーマンスが低下する現象である。
提案手法は,GPT-4o, GPT-3.5-turbo, DeepSeek-V3, Gemma-3, LLaMA-3.1, LLaMA-3.2, Mistral を含む複数の LLM にまたがる。
実験の結果、過剰なドメイン固有例をプロンプトに組み込むことで、特定のLLMの性能をパラドックス的に劣化させることができることが判明した。
LLM支援ソフトウェアエンジニアリングと要件分析のトレンドを踏まえ、実世界のソフトウェア要件分類データセットを2つ実験する。
TF-IDF選択および階層化された少数ショット例の数を徐々に増加させることで,LLM毎に最適な量を同定する。
この組み合わせのアプローチは、より少ない例で優れた性能を達成し、オーバープロンプトの問題を避け、機能的および非機能的要件の分類において最先端を1%超える。
関連論文リスト
- Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets [13.111181135818184]
大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。
優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。
我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
論文 参考訳(メタデータ) (2025-09-16T14:48:46Z) - Training-free LLM Verification via Recycling Few-shot Examples [8.919343613551183]
LLM出力の検証にFew-shot例をリサイクルする新しいフレームワークを提案する(Referi)。
私たちのキーとなるアイデアは、与えられた少数ショットの例を付加して、ターゲットクエリの候補出力を評価することです。
Referiはベイズのルールからモチベーションを得た2つの異なるスコアを組み合わせて生成した出力を評価し、その後、自信を持って決定され、文脈的に一貫性のある候補を選択する。
論文 参考訳(メタデータ) (2025-06-08T10:02:07Z) - An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability [20.760483719891887]
ゼロショットのパラダイムをインコンテキストラーニング(ICL)に拡張し、デモの設定に関する詳細な研究を行う。
具体的には、デモの検索、プレゼンテーション、配信をカバーする3つの重要な要因を調査し、最適化する。
MLLMに固有の予測バイアスも発見され、その後効果的に反作用する。
論文 参考訳(メタデータ) (2025-05-22T03:51:41Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。