Fugu-MT 論文翻訳(概要): Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs

論文の概要: Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs

arxiv url: http://arxiv.org/abs/2305.11860v2
Date: Thu, 16 Nov 2023 16:47:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 22:45:14.122334
Title: Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs
Title（参考訳）: ステップバイステップ:効率的な推論とllmsによるコーディングのための適応一貫性
Authors: Pranjal Aggarwal, Aman Madaan, Yiming Yang, Mausam
Abstract要約: 大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
参考スコア（独自算出の注目度）: 60.58434523646137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A popular approach for improving the correctness of output from large language models (LLMs) is Self-Consistency - poll the LLM multiple times and output the most frequent solution. Existing Self-Consistency techniques always generate a constant number of samples per question, where a better approach will be to non-uniformly distribute the available budget based on the amount of agreement in the samples generated so far. In response, we introduce Adaptive-Consistency, a cost-efficient, model-agnostic technique that dynamically adjusts the number of samples per question using a lightweight stopping criterion. Our experiments over 17 reasoning and code generation datasets and three LLMs demonstrate that Adaptive-Consistency reduces sample budget by up to 7.9 times with an average accuracy drop of less than 0.1%. Our code and data are available at https://www.sample-step-by-step.info
Abstract（参考訳）: 大規模言語モデル(llm)からの出力の正確性を改善するための一般的なアプローチは、自己一貫性(self-consistency)である。既存の自己一貫性技術は常に質問毎に一定の数のサンプルを生成します。そこでは、これまで生成されたサンプルの合意の量に基づいて、利用可能な予算を均一に分散する方がよいでしょう。そこで,我々は,軽量な停止基準を用いて,質問毎のサンプル数を動的に調整するコスト効率の高いモデル非依存手法であるadaptive-consistencyを導入する。 17の推論とコード生成データセットと3つのLCMによる実験により、Adaptive-Consistencyはサンプル予算を最大7.9倍削減し、平均精度は0.1%未満であることが示された。私たちのコードとデータはhttps://www.sample-step-by-step.infoで入手できます。

関連論文リスト

Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。このような複数のサンプルセットを活用する新しい方法を提案する。我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文参考訳（メタデータ） (2025-06-10T17:42:35Z)
Sampling Preferences Yields Simple Trustworthiness Scores [0.0]
本研究は,多次元評価結果からスカラー信頼性スコアを抽出する選好サンプリングを導入する。選好サンプリングは一貫して還元的であり、候補モデルのセットを100%削減する。
論文参考訳（メタデータ） (2025-06-03T21:14:35Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-03-20T04:38:56Z)
Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では, 大規模言語モデル(LLM)からの不確実性定量化のレンズを用いて, シミュレーションされたサーベイ応答の信頼性について検討する。提案手法は, 人工データから人間応答の個体群パラメータの信頼度集合へと変換し, シミュレーションされた個体群と実個体群の分布変化に対処する。
論文参考訳（メタデータ） (2025-02-25T02:07:29Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。 RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
S$^{2}$-DMs:Skip-Step Diffusion Models [10.269647566864247]
拡散モデルは強力な生成ツールとして出現し、サンプル品質のGANと競合し、自己回帰モデルの可能性スコアを反映している。これらのモデルのサブセットはDDIMによって例示され、固有の非対称性を示す:それらは$T$ステップで訓練されるが、生成時に$T$のサブセットからのみサンプルされる。この選択的なサンプリング手法は、スピードに最適化されているが、無サンプルのステップから必然的に重要な情報を見逃し、サンプルの品質が損なわれる可能性がある。革新的な$Lを用いた新しいトレーニング手法であるS$2$-DMを提案する。
論文参考訳（メタデータ） (2024-01-03T03:08:32Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。 FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文参考訳（メタデータ） (2021-09-13T08:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。