Fugu-MT 論文翻訳(概要): Better Zero-Shot Reasoning with Self-Adaptive Prompting

論文の概要: Better Zero-Shot Reasoning with Self-Adaptive Prompting

arxiv url: http://arxiv.org/abs/2305.14106v1
Date: Tue, 23 May 2023 14:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 15:43:53.924880
Title: Better Zero-Shot Reasoning with Self-Adaptive Prompting
Title（参考訳）: 自己適応型プロンプトによるゼロショット推論の改善
Authors: Xingchen Wan, Ruoxi Sun, Hanjun Dai, Sercan O. Arik, Tomas Pfister
Abstract要約: 現代の大規模言語モデル(LLM)は、しばしば人間に似たステップ・バイ・ステップの推論を通じて、洗練されたタスクにおいて印象的な能力を示してきた。本稿では,LCMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。 COSPは、ゼロショットベースラインに比べて最大15%の性能向上を示し、様々な推論タスクにおいて、数ショットベースラインを超えている。
参考スコア（独自算出の注目度）: 39.54061907239995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern large language models (LLMs) have demonstrated impressive capabilities at sophisticated tasks, often through step-by-step reasoning similar to humans. This is made possible by their strong few and zero-shot abilities -- they can effectively learn from a handful of handcrafted, completed responses ("in-context examples"), or are prompted to reason spontaneously through specially designed triggers. Nonetheless, some limitations have been observed. First, performance in the few-shot setting is sensitive to the choice of examples, whose design requires significant human effort. Moreover, given the diverse downstream tasks of LLMs, it may be difficult or laborious to handcraft per-task labels. Second, while the zero-shot setting does not require handcrafting, its performance is limited due to the lack of guidance to the LLMs. To address these limitations, we propose Consistency-based Self-adaptive Prompting (COSP), a novel prompt design method for LLMs. Requiring neither handcrafted responses nor ground-truth labels, COSP selects and builds the set of examples from the LLM zero-shot outputs via carefully designed criteria that combine consistency, diversity and repetition. In the zero-shot setting for three different LLMs, we show that using only LLM predictions, COSP improves performance up to 15% compared to zero-shot baselines and matches or exceeds few-shot baselines for a range of reasoning tasks.
Abstract（参考訳）: 現代の大規模言語モデル(llm)は、人間に似たステップバイステップ推論を通じて、高度なタスクで印象的な能力を発揮している。これは、非常に少数でゼロショットの能力によって実現される - 少数の手作りで完了した応答("in-context example")から効果的に学習したり、特別に設計されたトリガーを通じて自然に推論するように促される。しかし、いくつかの制限が観測されている。第一に、数ショット設定のパフォーマンスは、人間の努力を要する設計の例の選択に敏感である。さらに、LLMの様々な下流タスクを考えると、タスク毎のハンドクラフトには困難か、あるいは手間がかかる可能性がある。第2に、ゼロショット設定は手作りを必要としないが、llmへのガイダンスの欠如により性能が制限されている。これらの制約に対処するために,LLMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。手作りの応答も地味ラベルも必要とせず、COSPは一貫性、多様性、反復性を組み合わせた慎重に設計された基準により、LCMゼロショット出力からサンプルセットを選択し、構築する。 3つの異なるLCMのゼロショット設定において、LCM予測のみを用いることで、COSPはゼロショットベースラインと比較して最大15%向上し、様々な推論タスクにおいて数ショットベースラインを超えるか、あるいは超えることを示す。

関連論文リスト

Training-free LLM Verification via Recycling Few-shot Examples [8.919343613551183]
LLM出力の検証にFew-shot例をリサイクルする新しいフレームワークを提案する(Referi)。私たちのキーとなるアイデアは、与えられた少数ショットの例を付加して、ターゲットクエリの候補出力を評価することです。 Referiはベイズのルールからモチベーションを得た2つの異なるスコアを組み合わせて生成した出力を評価し、その後、自信を持って決定され、文脈的に一貫性のある候補を選択する。
論文参考訳（メタデータ） (2025-06-08T10:02:07Z)
Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare [1.9296797946506608]
ファインタニングは、ゼロショット結果と比較して、すべてのシナリオでSLMのパフォーマンスを著しく改善した。ドメイン依存のSLMは、特に難しいタスクにおいて、微調整後の一般的なSLMよりもパフォーマンスが良くなった。さらなるドメイン固有の事前訓練は、より簡単なタスクでは控えめなゲインを得たが、複雑なデータスカースタスクでは大幅に改善された。
論文参考訳（メタデータ） (2025-04-29T21:50:06Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。 LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。 LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文参考訳（メタデータ） (2024-05-30T17:05:45Z)
Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T14:05:03Z)
Zero-Shot Question Answering over Financial Documents using Large Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。 LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文参考訳（メタデータ） (2023-11-19T16:23:34Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Prompting Large Language Models for Counterfactual Generation: An Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-24T06:44:32Z)
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文参考訳（メタデータ） (2023-05-18T17:48:03Z)
Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。 LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-05-24T09:22:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。