論文の概要: Which Words Matter Most in Zero-Shot Prompts?
- arxiv url: http://arxiv.org/abs/2502.03418v3
- Date: Mon, 29 Sep 2025 16:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.898331
- Title: Which Words Matter Most in Zero-Shot Prompts?
- Title(参考訳): ゼロショットのプロンプトで一番重要な単語は?
- Authors: Nikta Gohari Sadr, Sangmitra Madhusudan, Hassan Sajjad, Ali Emami,
- Abstract要約: ZIPスコアは、命令プロンプトにおいて個々の単語の重要性を定量化する最初の体系的手法である。
数学的な問題が「ステップ・バイ・ステップ」を優先するタスク固有の単語階層が存在し、推論タスクは「思考」を好むことを示す。
我々は,20の検証プロンプトを所定キーワードで行うことで,素早い解釈可能性を示す最初の基盤トラバス・ベンチマークを確立する。
- 参考スコア(独自算出の注目度): 16.347012287506253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While zero-shot instructional prompts like "Let's think step-by-step" have revolutionized Large Language Model performance, a fundamental question remains unanswered: which specific words drive their remarkable effectiveness? We introduce the ZIP score (Zero-shot Importance of Perturbation), the first systematic method to quantify individual word importance in instructional prompts through controlled perturbations including synonym replacement, co-hyponym substitution, and strategic removal. Our analysis across four flagship models, seven widely-adopted prompts, and multiple task domains reveals four key findings: (1) Task-specific word hierarchies exist where mathematical problems prioritize "step-by-step" while reasoning tasks favor "think"; (2) Proprietary models show superior alignment with human intuitions compared to open-source alternatives; (3) Nouns dominate importance rankings, consistently representing the majority of significant words; and (4) Word importance inversely correlates with model performance, indicating prompts have greatest impact where models struggle most. Beyond revealing these patterns, we establish the first ground-truth benchmark for prompt interpretability through 20 validation prompts with predetermined key words, where ZIP achieves 90% accuracy versus LIME's 60%. Our findings advance prompt science, the study of how language shapes model behavior, providing both practical insights for prompt engineering and theoretical understanding of word-level effects in LLMs.
- Abstract(参考訳): Let's Think-by-step"のようなゼロショット命令プロンプトは、大規模言語モデルのパフォーマンスに革命をもたらしたが、根本的な疑問は未解決のままである。
ZIPスコア(Zero-shot Importance of Perturbation)は,シノニム置換,コハイモニム置換,戦略的除去を含む制御摂動を通じて,指導的プロンプトにおける個々の単語の重要性を定量化する最初の体系的手法である。
提案する4つのフラッグシップモデル,7つの課題領域,および複数の課題領域を対象とする分析では,(1)タスク固有の単語階層が存在し,課題が「ステップ・バイ・ステップ」を優先する一方で,タスクが「思考」を好むという数学的問題が存在すること,(2)プライマリモデルでは,オープンソースモデルに比べて人間の直感に優越していること,(3)名詞が重要な単語の大部分を一貫して表していること,(4)単語の重要性がモデルのパフォーマンスと逆相関していること,など,4つの重要な結果が示されている。
これらのパターンを明らかにすること以外に、ZIPがLIMEの60%に対して90%の精度を達成し、20の検証プロンプトを所定のキーワードで行うことで、素早い解釈性を示すための最初の基礎的信頼度ベンチマークを確立する。
我々の発見は、科学、言語がどのように振舞いをモデル化するかの研究を推進し、工学的な素早い理解とLLMにおける単語レベルの効果の理論的理解の両立に寄与する。
関連論文リスト
- SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models [35.17291316942284]
本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。
我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
論文 参考訳(メタデータ) (2023-10-14T05:20:02Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science [27.727207443432278]
本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。
その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
論文 参考訳(メタデータ) (2023-05-23T17:48:21Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z) - CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (2021-11-04T00:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。