Fugu-MT 論文翻訳(概要): Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning with LLMs

論文の概要: Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning with LLMs

arxiv url: http://arxiv.org/abs/2305.11860v1
Date: Fri, 19 May 2023 17:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 13:01:27.961676
Title: Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning with LLMs
Title（参考訳）: ステップ・バイ・ステップ:LLMによる効率的な推論のための適応整合性
Authors: Pranjal Aggarwal, Aman Madaan, Yiming Yang, Mausam
Abstract要約: 既存の自己整合性技術は、常に質問毎に一定の数のサンプルを描画する。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。 13のデータセットと2つのLCMを用いた実験により、Adaptive-Consistencyはサンプル予算を最大6.0倍削減し、平均精度は0.1%未満であることが示された。
参考スコア（独自算出の注目度）: 49.5090136096729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A popular approach for improving the correctness of output from large language models (LLMs) is Self-Consistency - poll the LLM multiple times and output the most frequent solution. Existing Self-Consistency techniques always draw a constant number of samples per question, where a better approach will be to non-uniformly distribute the available budget based on the amount of agreement in the samples drawn so far. In response, we introduce Adaptive-Consistency, a cost-efficient, model-agnostic technique that dynamically adjusts the number of samples per question using a lightweight stopping criterion. Our experiments over 13 datasets and two LLMs demonstrate that Adaptive-Consistency reduces sample budget by up to 6.0 times with an average accuracy drop of less than 0.1%.
Abstract（参考訳）: 大規模言語モデル(llm)からの出力の正確性を改善するための一般的なアプローチは、自己一貫性(self-consistency)である。既存の自己一貫性技術は常に質問毎に一定の数のサンプルを描画するので、これまでのサンプルの合意量に基づいて、利用可能な予算を均一に分配する方がよいでしょう。そこで,我々は,軽量な停止基準を用いて,質問毎のサンプル数を動的に調整するコスト効率の高いモデル非依存手法であるadaptive-consistencyを導入する。 13のデータセットと2つのllmを用いた実験により,適応-一貫性は平均精度0.1%未満で,最大6.0倍のサンプル予算削減を実現している。

関連論文リスト

Optimal Self-Consistency for Efficient Reasoning with Large Language Models [3.74203477986748]
自己整合性(英: Self-Consistency, SC)は、チェーンオブソート推論の性能向上のためのテスト時間推論手法である。本稿では,SCのスケーリング行動とその変種を網羅的に分析し,モード推定と投票理論に基づく。 Blend-ASCは自己整合の新たな変種であり、推論中に動的にサンプルを問合せに割り当てる。
論文参考訳（メタデータ） (2025-11-15T17:45:42Z)
Reducing Hallucinations in LLM-Generated Code via Semantic Triangulation [2.8646222242803643]
我々はセマンティックトライアングルを導入し、解間の正確な検証可能なマッピングを保持する方法でプログラミング問題を変換する。 LiveCodeBenchとCodeEloのベンチマークでは、セマンティックトライアングルによって生成されたコードの信頼性が21%向上している。また、複数の有効だが等価でない解を持つタスクに対して、真のコンセンサスを一貫して形成する唯一のアプローチでもある。
論文参考訳（メタデータ） (2025-11-15T16:45:14Z)
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。 LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文参考訳（メタデータ） (2025-10-06T16:34:09Z)
Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。このような複数のサンプルセットを活用する新しい方法を提案する。我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文参考訳（メタデータ） (2025-06-10T17:42:35Z)
Sampling Preferences Yields Simple Trustworthiness Scores [0.0]
本研究は,多次元評価結果からスカラー信頼性スコアを抽出する選好サンプリングを導入する。選好サンプリングは一貫して還元的であり、候補モデルのセットを100%削減する。
論文参考訳（メタデータ） (2025-06-03T21:14:35Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-03-20T04:38:56Z)
Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文参考訳（メタデータ） (2025-03-04T07:32:41Z)
Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では, 大規模言語モデル(LLM)からの不確実性定量化のレンズを用いて, シミュレーションされたサーベイ応答の信頼性について検討する。提案手法は, 人工データから人間応答の個体群パラメータの信頼度集合へと変換し, シミュレーションされた個体群と実個体群の分布変化に対処する。
論文参考訳（メタデータ） (2025-02-25T02:07:29Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。 RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
S$^{2}$-DMs:Skip-Step Diffusion Models [10.269647566864247]
拡散モデルは強力な生成ツールとして出現し、サンプル品質のGANと競合し、自己回帰モデルの可能性スコアを反映している。これらのモデルのサブセットはDDIMによって例示され、固有の非対称性を示す:それらは$T$ステップで訓練されるが、生成時に$T$のサブセットからのみサンプルされる。この選択的なサンプリング手法は、スピードに最適化されているが、無サンプルのステップから必然的に重要な情報を見逃し、サンプルの品質が損なわれる可能性がある。革新的な$Lを用いた新しいトレーニング手法であるS$2$-DMを提案する。
論文参考訳（メタデータ） (2024-01-03T03:08:32Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。 FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文参考訳（メタデータ） (2021-09-13T08:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。