Fugu-MT 論文翻訳(概要): Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data

論文の概要: Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data

arxiv url: http://arxiv.org/abs/2302.12822v1
Date: Fri, 24 Feb 2023 18:58:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 12:34:06.983138
Title: Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data
Title（参考訳）: ラベル付きデータからのチェーン・オブ・サートによる自動プロンプト増大と選択
Authors: KaShun Shum, Shizhe Diao, Tong Zhang
Abstract要約: チェーン・オブ・シークレット・プロンプト(CoT)は、大きな言語モデルの推論能力を向上させる。ほとんどのCoT研究は、言語モデルを促進するために、慎重に設計された人間の注釈付き有理連鎖に依存している。本稿では,CoTの人的工学を回避できる新しい戦略であるAutomatic-CoTを提案する。
参考スコア（独自算出の注目度）: 15.154504346975655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-thought prompting (CoT) advances the reasoning abilities of large language models (LLMs) and achieves superior performance in arithmetic, commonsense, and symbolic reasoning tasks. However, most CoT studies rely on carefully designed human-annotated rational chains to prompt the language model, which poses challenges for real-world applications where labeled training data is available without human-annotated rational chains. This creates barriers to applications of CoT prompting to these general tasks. This paper proposes a new strategy, Automate-CoT (Automatic Prompt Augmentation and Selection with Chain-of-Thought), that can bypass human engineering of CoTs by automatically augmenting rational chains from a small labeled dataset, and then pruning low-quality chains to construct a candidate pool of machine-generated rationale chains based on the labels. Finally, it selects the optimal combination of several rationale chains from the pool for CoT prompting by employing a variance-reduced policy gradient strategy to estimate the significance of each example in a black-box language model. Automate-CoT enables a quick adaptation of the CoT technique to different tasks. Experimental results demonstrate the effectiveness of our method, where state-of-the-art results are achieved on arithmetic reasoning (+2.7\%), commonsense reasoning (+3.4\%), symbolic reasoning (+3.2\%), and non-reasoning tasks (+2.5\%). Our code will be available at https://github.com/shizhediao/automate-cot.
Abstract（参考訳）: CoT(Chain-of- Thought prompting)は、大規模言語モデル(LLM)の推論能力を高め、算術、常識、シンボリック推論タスクにおいて優れたパフォーマンスを達成する。しかし、ほとんどのCoT研究は、言語モデルを促進するために慎重に設計された有理連鎖に依存しており、有理連鎖なしでラベル付きトレーニングデータが利用できる現実世界のアプリケーションに課題をもたらす。これにより、これらの一般的なタスクに刺激するCoTの応用に対する障壁が生じる。本稿では,CoTの人為的エンジニアリングを回避し,ラベル付きデータセットから有理連鎖を自動的に拡張し,低品質な連鎖を抽出して,ラベルに基づく機械生成有理連鎖の候補プールを構築する,Automate-CoT(Automatic Prompt Augmentation and Selection with Chain-of-Thought)を提案する。最後に、分散還元政策勾配戦略を用いて、COTのためのプールから複数の有理連鎖の最適組み合わせを選択し、ブラックボックス言語モデルにおける各例の意義を推定する。 Automate-CoTは、CoTテクニックをさまざまなタスクに迅速に適応できる。実験結果から,算術的推論(+2.7\%),コモンセンス推論(+3.4\%),記号的推論(+3.2\%),非推論タスク(+2.5\%)が得られた。私たちのコードはhttps://github.com/shizhediao/automate-cotで利用可能です。

関連論文リスト

Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文参考訳（メタデータ） (2025-06-06T11:53:27Z)
Continuous Chain of Thought Enables Parallel Exploration and Reasoning [38.59659461841282]
現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。我々の研究は、論理的推論タスクを通じて、継続的に評価されたトークン(CoT2)の利点を調べます。我々は、CoT2が複数のトレースを並列に追跡し、推論効率の利点を定量化できることを示した。
論文参考訳（メタデータ） (2025-05-29T16:58:28Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。 AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文参考訳（メタデータ） (2025-05-17T08:27:00Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-02-13T18:52:36Z)
CDW-CoT: Clustered Distance-Weighted Chain-of-Thoughts Reasoning [16.502640216082547]
思考のクラスタ化距離重み付き連鎖法(CDW-CoT)を提案する。各データインスタンスの特徴に合わせたプロンプトを動的に構築する。従来のCoTメソッドを6つのデータセットで一貫して上回る。
論文参考訳（メタデータ） (2025-01-21T15:51:07Z)
Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs [14.763433457556136]
マルチモーダル大言語モデル (EMLLM) は、Chain-of-Thought (CoT) 推論により性能を向上させることができる。 CoT推論プロセスの自己評価能力は貧弱です。これは、下流タスク微調整時の推論過程と自己評価能力の低下を単純化する傾向があるためである。
論文参考訳（メタデータ） (2025-01-10T02:28:04Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
Self-Harmonized Chain of Thought [8.540320749424172]
CoT(Chain-of- Thought)プロンプトは、中間ステップを通じて複雑な推論を行うための大きな言語モデルの能力を示している。多様な解経路を一貫した効果的な推論パターンに統一する新しい手法ECHOを提案する。
論文参考訳（メタデータ） (2024-09-06T06:57:04Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文参考訳（メタデータ） (2024-06-04T14:02:53Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
Deep Reinforcement Learning for Modelling Protein Complexes [29.64786472108047]
非環状無向連結グラフは多鎖タンパク質複合体の構造を予測するのに有用であることを示す。 GAPNは、ドメイン固有の報酬と、ポリシー勾配による敵の損失を生かした、ジェネレーティブ・アドバイサル・ポリシー・ネットワークである。
論文参考訳（メタデータ） (2024-03-11T12:33:33Z)
AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文参考訳（メタデータ） (2024-01-10T16:57:24Z)
DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文参考訳（メタデータ） (2024-01-10T14:38:46Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)
Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文参考訳（メタデータ） (2020-02-07T17:27:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。