Fugu-MT 論文翻訳(概要): Think or Step-by-Step? UnZIPping the Black Box in Zero-Shot Prompts

論文の概要: Think or Step-by-Step? UnZIPping the Black Box in Zero-Shot Prompts

arxiv url: http://arxiv.org/abs/2502.03418v2
Date: Sat, 15 Feb 2025 20:06:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.442796
Title: Think or Step-by-Step? UnZIPping the Black Box in Zero-Shot Prompts
Title（参考訳）: ステップ・バイ・ステップ? ゼロショットプロンプトでブラックボックスを解き放つ
Authors: Nikta Gohari Sadr, Sangmitra Madhusudan, Ali Emami,
Abstract要約: ZIPスコア(Zero-shot Importance of Perturbation score)は,オープンソースモデルとクローズドソースモデルの両方に適用可能な多目的メトリックである。ステップ・バイ・ステップ」と「思考」の両方が高いZIPスコアを示す一方で、モデルやタスクによって影響が強くなることを示す。
参考スコア（独自算出の注目度）: 5.397565689903148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot prompting techniques have significantly improved the performance of Large Language Models (LLMs). However, we lack a clear understanding of why zero-shot prompts are so effective. For example, in the prompt "Let's think step-by-step," is "think" or "step-by-step" more crucial to its success? Existing interpretability methods, such as gradient-based and attention-based approaches, are computationally intensive and restricted to open-source models. We introduce the ZIP score (Zero-shot Importance of Perturbation score), a versatile metric applicable to both open and closed-source models, based on systematic input word perturbations. Our experiments across four recent LLMs, seven widely-used prompts, and several tasks, reveal interesting patterns in word importance. For instance, while both 'step-by-step' and 'think' show high ZIP scores, which one is more influential depends on the model and task. We validate our method using controlled experiments and compare our results with human judgments, finding that proprietary models align more closely with human intuition regarding word significance. These findings enhance our understanding of LLM behavior and contribute to developing more effective zero-shot prompts and improved model analysis.
Abstract（参考訳）: ゼロショットプロンプト技術は大規模言語モデル(LLM)の性能を大幅に改善した。しかし、なぜゼロショットプロンプトがこれほど効果的であるかについては、明確な理解が欠けている。例えば、"Let's think-by-step"というプロンプトでは、その成功に"think"あるいは"step-by-step"がより重要か? グラデーションベースやアテンションベースアプローチのような既存の解釈可能性手法は、計算集約的で、オープンソースモデルに限定されている。 ZIPスコア(Zero-shot Importance of Perturbation score)は,オープンソースモデルとクローズドソースモデルの両方に適用可能な多目的メトリックである。近年の4つのLSM、広く使われている7つのプロンプト、およびいくつかのタスクを対象とした実験により、単語の重要性の興味深いパターンが明らかになった。例えば、「ステップバイステップ」と「思考」の両方が高いZIPスコアを示しており、そのスコアはモデルとタスクに依存している。制御実験を用いて本手法を検証し,その結果と人間の判断を比較した結果,単語の意義に関する人間の直観とプロプライエタリなモデルがより密接に一致していることが判明した。これらの結果はLLM行動の理解を高め、より効果的なゼロショットプロンプトの開発に寄与し、モデル解析の改善に寄与する。

関連論文リスト

SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文参考訳（メタデータ） (2024-03-13T03:15:05Z)
A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models [35.17291316942284]
本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
論文参考訳（メタデータ） (2023-10-14T05:20:02Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science [27.727207443432278]
本稿では,ChatGPTとOpenAssistantの2つの公開言語モデルのゼロショット性能を評価する。その結果,異なるプロンプト戦略が分類精度に大きく影響し,F1スコアが10%を超えることが判明した。
論文参考訳（メタデータ） (2023-05-23T17:48:21Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)
Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。 9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文参考訳（メタデータ） (2022-12-19T21:34:26Z)
Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。 LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-05-24T09:22:26Z)
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文参考訳（メタデータ） (2021-11-04T00:43:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。