論文の概要: Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning
- arxiv url: http://arxiv.org/abs/2401.10480v1
- Date: Fri, 19 Jan 2024 04:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:55:08.220955
- Title: Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning
- Title(参考訳): エスケープスカイハイコスト:マルチステップ推論のための早期停止型自己整合性
- Authors: Yiwei Li, Peiwen Yuan, Shaoxiong Feng, Boyuan Pan, Xinglin Wang, Bin
Sun, Heda Wang, Kan Li
- Abstract要約: 自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
- 参考スコア(独自算出の注目度): 15.088675135566646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-consistency (SC) has been a widely used decoding strategy for
chain-of-thought reasoning. Despite bringing significant performance
improvements across a variety of multi-step reasoning tasks, it is a high-cost
method that requires multiple sampling with the preset size. In this paper, we
propose a simple and scalable sampling process, \textbf{E}arly-Stopping
\textbf{S}elf-\textbf{C}onsistency (ESC), to greatly reduce the cost of SC
without sacrificing performance. On this basis, one control scheme for ESC is
further derivated to dynamically choose the performance-cost balance for
different tasks and models. To demonstrate ESC's effectiveness, we conducted
extensive experiments on three popular categories of reasoning tasks:
arithmetic, commonsense and symbolic reasoning over language models with
varying scales. The empirical results show that ESC reduces the average number
of sampling of chain-of-thought reasoning by a significant margin on six
benchmarks, including MATH (-33.8%), GSM8K (-80.1%), StrategyQA (-76.8%),
CommonsenseQA (-78.5%), Coin Flip (-84.2%) and Last Letters (-67.4%), while
attaining comparable performances.
- Abstract(参考訳): 自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
様々なマルチステップ推論タスクに大幅なパフォーマンス改善をもたらすが、プリセットサイズで複数のサンプリングを必要とする低コストな方法である。
本稿では,簡易でスケーラブルなサンプリングプロセスである \textbf{E}arly-Stopping \textbf{S}elf-\textbf{C}onsistency (ESC) を提案する。
これに基づいて、ESCの1つの制御スキームを導出し、異なるタスクやモデルのパフォーマンスコストバランスを動的に選択する。
ESCの有効性を示すために,算術,コモンセンス,記号的推論という3つの一般的な推論課題のカテゴリについて,様々なスケールの言語モデルに対して広範な実験を行った。
実証実験の結果、ESCはMATH (-33.8%)、GSM8K (-80.1%)、StrategyQA (-76.8%)、CommonsenseQA (-78.5%)、Coin Flip (-84.2%)、Last Letters (-67.4%)を含む6つのベンチマークにおいて、チェーン・オブ・シークレットのサンプリング平均数をかなりのマージンで削減している。
関連論文リスト
- Layer Pruning with Consensus: A Triple-Win Solution [0.0]
レイヤ・プルーニングのアプローチは、しばしば、レイヤの複雑な基盤となる特性を完全に捉えない単一の基準に依存します。
本稿では,複数の類似度指標を,コンセンサス基準(Consensus criterion)と呼ばれる低重要層の単一の表現尺度に組み合わせた新しい手法を提案する。
本手法は,低精度低下,高性能化,敵攻撃に対するロバスト性の向上という3つの解を提供する。
論文 参考訳(メタデータ) (2024-11-21T17:41:27Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。
我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。
RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning [19.408941114068444]
自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。
その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。
本稿では,事前視点と後方視点の両方からの難易度情報を利用して,推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:03:35Z) - Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models? [13.222198659253056]
4つのサブメソッドを含む新しいプロンプトフレームワーク(SarcasmCue)を導入する。
シーケンシャルおよび非シーケンシャルなプロンプト法を考慮し、人間の皮肉を検出するために、大きな言語モデル(LLM)を用いる。
我々のフレームワークは、4つのデータセットでF1スコアの4.2%、2.0%、29.7%、58.2%を継続的に最先端(ToT)にプッシュします。
論文 参考訳(メタデータ) (2024-07-17T16:42:03Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - Soft Self-Consistency Improves Language Model Agents [57.66282463340297]
現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。
SOFT-SC(Soft Self-Consistency)は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。
一定の数のサンプルに対して、SOFT-SCはSCを1.3%上回り、bashプログラムの絶対的な成功率、オンラインショッピングの6.6%増、インタラクティブホームゲームでは4.7%増となる。
論文 参考訳(メタデータ) (2024-02-20T18:22:38Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。