論文の概要: DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.02246v1
- Date: Mon, 01 Dec 2025 22:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.633538
- Title: DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models
- Title(参考訳): DETAILの課題:大規模言語モデルの推論におけるプロンプト特異性の影響の測定
- Authors: Olivia Kim,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を評価するためのフレームワークであるDETAILを紹介する。
我々は、GPT-4を用いてマルチレベルプロンプトを生成し、パープレキシティによる特異性を定量化し、GPTに基づく意味的等価性を用いて正当性を評価する。
GPT-4とO3-miniをまたいだ30の新たな推論タスクの実験では、特に小さなモデルや手続きタスクにおいて、特異性によって精度が向上することが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt design plays a critical role in the reasoning performance of large language models (LLMs), yet the impact of prompt specificity - how detailed or vague a prompt is - remains understudied. This paper introduces DETAIL, a framework for evaluating LLM performance across varying levels of prompt specificity. We generate multi-level prompts using GPT-4, quantify specificity via perplexity, and assess correctness using GPT-based semantic equivalence. Experiments on 30 novel reasoning tasks across GPT-4 and O3-mini reveal that specificity improves accuracy, especially for smaller models and procedural tasks. Our results highlight the need for adaptive prompting strategies and provide tools and data to support further research.
- Abstract(参考訳): プロンプト設計は、大きな言語モデル(LLM)の推論性能において重要な役割を担いますが、プロンプトがどの程度詳細であるか、曖昧であるかといった、プロンプトの特異性の影響は、まだ検討されていません。
本稿では,LLMの性能評価フレームワークであるDETAILについて紹介する。
我々は、GPT-4を用いてマルチレベルプロンプトを生成し、パープレキシティによる特異性を定量化し、GPTに基づく意味的等価性を用いて正当性を評価する。
GPT-4とO3-miniをまたいだ30の新たな推論タスクの実験では、特に小さなモデルや手続きタスクにおいて、特異性によって精度が向上することが示されている。
この結果から,適応的促進戦略の必要性を強調し,さらなる研究を支援するためのツールやデータを提供する。
関連論文リスト
- The Impact of Role Design in In-Context Learning for Large Language Models [1.3177681589844814]
In-context Learning (ICL) により、Large Language Models (LLM) は、追加の微調整なしでプロンプトに基づいて予測を生成することができる。
本研究では, OpenAI の GPT-3.5 と GPT-4o と Meta の Llama2-7b と Llama2-13b を用いたゼロショットおよび少数ショット学習シナリオにおける役割構成の影響について検討した。
論文 参考訳(メタデータ) (2025-09-27T21:15:30Z) - PromptPrism: A Linguistically-Inspired Taxonomy for Prompts [13.169345040931857]
PromptPrismは言語にインスパイアされた分類であり、3つの階層レベルの素早い分析を可能にする。
3つのアプリケーションに適用することで,PromptPrismの実用性を示す。
論文 参考訳(メタデータ) (2025-05-19T01:08:26Z) - Prompt Engineering: How Prompt Vocabulary affects Domain Knowledge [0.0]
この論文は、語彙の特異性の増大がドメイン固有の質問応答および推論タスクを改善するかどうかを論じる。
名詞,動詞,形容詞を様々な特異度で体系的に代用する同義化フレームワークを開発し,四大言語モデル(LLM)への影響を測定した。
以上の結果から,全般的にプロンプトの特異性を高めることは大きな影響を与えないが,LLMが最善を尽くすと考えられるすべてのモデルに対して,特異性の範囲が存在することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-10T08:40:04Z) - Benchmarking Prompt Sensitivity in Large Language Models [13.986971540998258]
大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。
本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-09T23:01:03Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Empirical Evaluation of ChatGPT on Requirements Information Retrieval
Under Zero-Shot Setting [12.733403458944972]
要求情報検索タスクにおいてChatGPTの性能を実証的に評価する。
ゼロショット設定では、ChatGPTが要求情報を検索する有望な能力を示す。
論文 参考訳(メタデータ) (2023-04-25T04:09:45Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。