論文の概要: Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning
- arxiv url: http://arxiv.org/abs/2401.10480v1
- Date: Fri, 19 Jan 2024 04:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:55:08.220955
- Title: Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning
- Title(参考訳): エスケープスカイハイコスト:マルチステップ推論のための早期停止型自己整合性
- Authors: Yiwei Li, Peiwen Yuan, Shaoxiong Feng, Boyuan Pan, Xinglin Wang, Bin
Sun, Heda Wang, Kan Li
- Abstract要約: 自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
- 参考スコア(独自算出の注目度): 15.088675135566646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-consistency (SC) has been a widely used decoding strategy for
chain-of-thought reasoning. Despite bringing significant performance
improvements across a variety of multi-step reasoning tasks, it is a high-cost
method that requires multiple sampling with the preset size. In this paper, we
propose a simple and scalable sampling process, \textbf{E}arly-Stopping
\textbf{S}elf-\textbf{C}onsistency (ESC), to greatly reduce the cost of SC
without sacrificing performance. On this basis, one control scheme for ESC is
further derivated to dynamically choose the performance-cost balance for
different tasks and models. To demonstrate ESC's effectiveness, we conducted
extensive experiments on three popular categories of reasoning tasks:
arithmetic, commonsense and symbolic reasoning over language models with
varying scales. The empirical results show that ESC reduces the average number
of sampling of chain-of-thought reasoning by a significant margin on six
benchmarks, including MATH (-33.8%), GSM8K (-80.1%), StrategyQA (-76.8%),
CommonsenseQA (-78.5%), Coin Flip (-84.2%) and Last Letters (-67.4%), while
attaining comparable performances.
- Abstract(参考訳): 自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
様々なマルチステップ推論タスクに大幅なパフォーマンス改善をもたらすが、プリセットサイズで複数のサンプリングを必要とする低コストな方法である。
本稿では,簡易でスケーラブルなサンプリングプロセスである \textbf{E}arly-Stopping \textbf{S}elf-\textbf{C}onsistency (ESC) を提案する。
これに基づいて、ESCの1つの制御スキームを導出し、異なるタスクやモデルのパフォーマンスコストバランスを動的に選択する。
ESCの有効性を示すために,算術,コモンセンス,記号的推論という3つの一般的な推論課題のカテゴリについて,様々なスケールの言語モデルに対して広範な実験を行った。
実証実験の結果、ESCはMATH (-33.8%)、GSM8K (-80.1%)、StrategyQA (-76.8%)、CommonsenseQA (-78.5%)、Coin Flip (-84.2%)、Last Letters (-67.4%)を含む6つのベンチマークにおいて、チェーン・オブ・シークレットのサンプリング平均数をかなりのマージンで削減している。
関連論文リスト
- Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.60823802317141]
我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:27:57Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Layer Pruning with Consensus: A Triple-Win Solution [0.0]
レイヤ・プルーニングのアプローチは、しばしば、レイヤの複雑な基盤となる特性を完全に捉えない単一の基準に依存します。
本稿では,複数の類似度指標を,コンセンサス基準(Consensus criterion)と呼ばれる低重要層の単一の表現尺度に組み合わせた新しい手法を提案する。
本手法は,低精度低下,高性能化,敵攻撃に対するロバスト性の向上という3つの解を提供する。
論文 参考訳(メタデータ) (2024-11-21T17:41:27Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning [19.408941114068444]
自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。
その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。
本稿では,バッチクエリの難易度情報を利用して推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:03:35Z) - Is Sarcasm Detection A Step-by-Step Reasoning Process in Large Language Models? [13.222198659253056]
4つのサブメソッドを含む新しいプロンプトフレームワーク(SarcasmCue)を導入する。
シーケンシャルおよび非シーケンシャルなプロンプト法を考慮し、人間の皮肉を検出するために、大きな言語モデル(LLM)を用いる。
我々のフレームワークは、4つのデータセットでF1スコアの4.2%、2.0%、29.7%、58.2%を継続的に最先端(ToT)にプッシュします。
論文 参考訳(メタデータ) (2024-07-17T16:42:03Z) - Soft Self-Consistency Improves Language Model Agents [57.66282463340297]
現在の「サンプルとセレクト」メソッドは、回答を得るために多数決に頼っている。
SOFT-SC(Soft Self-Consistency)は、SCの不連続スコアをモデル確率から計算した連続スコアに置き換える。
一定の数のサンプルに対して、SOFT-SCはSCを1.3%上回り、bashプログラムの絶対的な成功率、オンラインショッピングの6.6%増、インタラクティブホームゲームでは4.7%増となる。
論文 参考訳(メタデータ) (2024-02-20T18:22:38Z) - Towards Simple and Accurate Human Pose Estimation with Stair Network [34.421529219040295]
精度の高い多段階ポーズ推定システムに積み重ねることができるStair Networkと呼ばれる小さな判別モデルを開発した。
計算コストを削減するため、Stair Networkは、新しい基本的な特徴抽出ブロックで構成されている。
2つの標準データセットに対するStair Networkの有効性を示す。
論文 参考訳(メタデータ) (2022-02-18T10:37:13Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。