論文の概要: The Prompt is Mightier than the Example
- arxiv url: http://arxiv.org/abs/2505.18485v1
- Date: Sat, 24 May 2025 03:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.452751
- Title: The Prompt is Mightier than the Example
- Title(参考訳): プロンプトは例より弱い
- Authors: Shengzhe Xu, Nikhil Muralidhar, Naren Ramakrishnan,
- Abstract要約: 本稿では,KGP(Knowledge-Guided Prompting)を最適化のための新しいノブとして紹介する。
「即時代用できる例はいくつあるか。」
- 参考スコア(独自算出の注目度): 13.34191777857657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous recent prompt optimization approaches like chain-of-thought, have been demonstrated to significantly improve the quality of content generated by large language models (LLMs). In-context learning (ICL), a recent paradigm where a few representative examples guide content generation has also led to strong improvements in generation quality of LLM generated content. This idea has been applied to great effect in synthetic tabular data generation, where LLMs, through effective use of ICL and prompt optimization, can generate data that approximate samples from complex, heterogeneous distributions based on representative examples. However, ensuring high-fidelity synthetic data often requires a very large number of ICL examples which may be unavailable or costly to obtain. At the same time, as LLMs get larger and larger, their in-built prior knowledge becomes vast and can potentially substitute for specific data examples. In this paper, we introduce Knowledge-Guided Prompting (KGP) as a new knob in prompt optimization and explore the ability of KGP-based prompt optimization to offset the cost of ICL. Specifically, we explore the question `how many examples can a prompt substitute for?' and explore knowledge-guided prompting (KGP) where domain knowledge, either inferred or available, is explicitly injected into the prompt, reducing dependence on ICL examples. Our experiments systematically explore the trade-off between ICL and KGP, revealing an empirical scaling law that quantifies how quality of generated synthetic data varies with increasing domain knowledge and decreasing example count. Our results demonstrate that knowledge-guided prompting can be a scalable alternative, or addition, to in-context examples, unlocking new approaches to synthetic data generation.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) によって生成されるコンテンツの品質を著しく向上させる手法として,チェーン・オブ・シントのような迅速な最適化手法が数多く提案されている。
In-context Learning (ICL)は、LLM生成コンテンツの生成品質が大幅に向上した最近のパラダイムである。
この考え方は、ICLを効果的に活用し、迅速な最適化により、代表例に基づいて複素異種分布からサンプルを近似したデータを生成する合成表データ生成において、大きな効果がある。
しかし、高忠実性合成データを保証するには、しばしば非常に多くのICLサンプルを必要とする。
同時に、LLMが大きくなるにつれて、組み込まれた事前知識は膨大になり、特定のデータ例に取って代わる可能性がある。
本稿では,KGPを最適化するための新しいノブとしてKGP(Knowledge-Guided Prompting)を導入し,ICLのコストを相殺するためのKGPベースの迅速な最適化機能について検討する。
具体的には,「どの程度の事例がプロンプトに代えられるのか」という問いを解き,知識誘導プロンプト(KGP)を探索する。
提案実験はICLとKGPのトレードオフを体系的に検討し,生成した合成データの質がドメイン知識の増大とサンプル数の減少とともにどのように変化するかを示す経験的スケーリング法則を明らかにする。
この結果から,知識誘導型プロンプトは,文脈内サンプルに対するスケーラブルな代替,あるいは追加可能であり,合成データ生成に対する新たなアプローチの鍵となることが示唆された。
関連論文リスト
- MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning [53.02571749383208]
In-Context Learning (ICL)は、大規模言語モデル(LLM)に複数のインプット・アウトプット・サンプルを組み込むことで、多様なタスクに対処する権限を与える。
Many-Shot Adaptive Pseudo-LabEling (MAPLE)は、ラベル情報の欠如を補うために擬似ラベル付きサンプルを利用する新しいインフルエンスベースのマルチショットICLフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T04:54:27Z) - Learning from Reasoning Failures via Synthetic Data Generation [5.893928870271388]
本稿では,既存のLMMの推論失敗の分析に基づく合成データ生成手法を提案する。
553k以上のサンプルを含む大規模なマルチモーダル命令チューニングデータセットを生成する。
以上の結果から,我々の合成データに基づいてトレーニングしたモデルが,等価量の実データに基づいてトレーニングしたLMMの性能を上回ることが示唆された。
論文 参考訳(メタデータ) (2025-04-20T07:45:53Z) - "In-Context Learning" or: How I learned to stop worrying and love "Applied Information Retrieval" [9.264121218481133]
In-context Learning (ICL)は、自然言語処理(NLP)の新しいパラダイムとして進化してきた。
ICLは概念的には$k$-NNのような非パラメトリックアプローチに似ている。
トレーニングセットから取得したICLの同様の例は、IRのコレクションから取得したドキュメントのセットに関連している。
論文 参考訳(メタデータ) (2024-05-02T09:25:24Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。