論文の概要: Active Prompting with Chain-of-Thought for Large Language Models
- arxiv url: http://arxiv.org/abs/2302.12246v3
- Date: Tue, 23 May 2023 15:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:14:08.828344
- Title: Active Prompting with Chain-of-Thought for Large Language Models
- Title(参考訳): 大規模言語モデルのための連鎖型アクティブプロンプト
- Authors: Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang
- Abstract要約: 本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
- 参考スコア(独自算出の注目度): 16.9127713032405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing scale of large language models (LLMs) brings emergent
abilities to various complex tasks requiring reasoning, such as arithmetic and
commonsense reasoning. It is known that the effective design of task-specific
prompts is critical for LLMs' ability to produce high-quality answers. In
particular, an effective approach for complex question-and-answer tasks is
example-based prompting with chain-of-thought (CoT) reasoning, which
significantly improves the performance of LLMs. However, current CoT methods
rely on a fixed set of human-annotated exemplars, which are not necessarily the
most effective examples for different tasks. This paper proposes a new method,
Active-Prompt, to adapt LLMs to different tasks with task-specific example
prompts (annotated with human-designed CoT reasoning). For this purpose, we
propose a solution to the key problem of determining which questions are the
most important and helpful ones to annotate from a pool of task-specific
queries. By borrowing ideas from the related problem of uncertainty-based
active learning, we introduce several metrics to characterize the uncertainty
so as to select the most uncertain questions for annotation. Experimental
results demonstrate the superiority of our proposed method, achieving
state-of-the-art on eight complex reasoning tasks. Further analyses of
different uncertainty metrics, pool sizes, zero-shot learning, and
accuracy-uncertainty relationship demonstrate the effectiveness of our method.
Our code will be available at https://github.com/shizhediao/active-prompt.
- Abstract(参考訳): 大規模言語モデル(LLM)の規模が大きくなると、算術や常識推論のような推論を必要とする様々な複雑なタスクに創発的能力がもたらされる。
タスク固有のプロンプトの効果的な設計は、llmsの高品質な答えを生み出す能力にとって重要であることが知られている。
特に、複雑な問合せタスクに対する効果的なアプローチは、LLMの性能を大幅に向上させるチェーン・オブ・シークレット(CoT)推論による例ベースのプロンプトである。
しかし、現在のCoT法は人間に注釈を付けた例の固定セットに依存しており、これは必ずしも異なるタスクの最も効果的な例ではない。
本稿では,タスク固有のサンプルプロンプト(人間設計のCoT推論に注釈を付ける)を用いて,LLMを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
この目的のために、タスク固有のクエリのプールからアノテートする最も重要で有用な質問を決定するという重要な問題に対する解決策を提案する。
不確実性に基づくアクティブラーニングに関連する問題からアイデアを借用することにより,不確実性を特徴付ける指標をいくつか導入し,最も不確実性のある質問を選択する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
異なる不確実性指標,プールサイズ,ゼロショット学習,正確性不確実性関係のさらなる分析により,本手法の有効性が示された。
私たちのコードはhttps://github.com/shizhediao/active-promptで利用可能です。
関連論文リスト
- EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。
ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文 参考訳(メタデータ) (2024-11-06T12:48:04Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure [0.0]
本稿では,多段階推論の直接評価という,推論能力の特定の側面に焦点を当てたベンチマークを提案する。
我々のデータセットは、明示的な指示とそれに対応する質問のペアで構成されており、質問の解決に必要な手順は、その指示の中で完全に詳細に記述されている。
各ステップで様々なステップの解決と応答評価を必要とする問題を構築することにより、最先端のLCMの指示に従う能力の徹底的な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-04T03:21:24Z) - Image First or Text First? Optimising the Sequencing of Modalities in Large Language Model Prompting and Reasoning Tasks [0.0]
本稿では,マルチモーダル内における画像とテキストのシークエンシングが,大規模言語モデル(LLM)の推論性能にどのように影響するかを検討する。
単一の画像を含む単純なタスクに対して、モダリティシークエンシングは精度に明確な影響を及ぼした。
複数の画像と複雑な推論ステップを含むより複雑なタスクでは、シークエンシングの効果が減少し、おそらくタスクの認知的要求が増大したためである。
論文 参考訳(メタデータ) (2024-10-04T00:55:15Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data
Augmentation [18.531941086922256]
QA (Few-shot Question answering) は、コンテキストパスから一連の質問に対する回答を正確に発見することを目的としている。
我々は,ジェネレーティブPROmpTベースのdaTa拡張フレームワークであるGottaを開発した。
人間の推論プロセスにインスパイアされた我々は、クローズタスクを統合して、数発のQA学習を強化することを提案する。
論文 参考訳(メタデータ) (2023-06-07T01:44:43Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。
このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。
Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-05T17:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。