Fugu-MT 論文翻訳(概要): Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning

論文の概要: Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning

arxiv url: http://arxiv.org/abs/2408.13457v2
Date: Fri, 24 Jan 2025 06:46:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.439923
Title: Make Every Penny Count: Difficulty-Adaptive Self-Consistency for Cost-Efficient Reasoning
Title（参考訳）: すべてのペニー数を作る: 費用効率の良い推論のための難易度適応型の自己整合性
Authors: Xinglin Wang, Shaoxiong Feng, Yiwei Li, Peiwen Yuan, Yueqi Zhang, Boyuan Pan, Heda Wang, Yao Hu, Kan Li,
Abstract要約: 自己整合性(英: Self-Consistency, SC)は、思考の連鎖推論のための復号法である。その変種である適応自己整合(ASC)とアーリーストッピング自己整合(ESC)は、プレサンプルの集合の後方分布に基づいて標本の数を動的に調整する。本稿では,事前視点と後方視点の両方からの難易度情報を利用して,推論資源を適応的に割り当てるDifficulty-Adaptive Self-Consistency (DSC)を提案する。
参考スコア（独自算出の注目度）: 19.408941114068444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-consistency (SC), a widely used decoding strategy for chain-of-thought reasoning, shows significant gains across various multi-step reasoning tasks but comes with a high cost due to multiple sampling with the preset size. Its variants, Adaptive self-consistency (ASC) and Early-stopping self-consistency (ESC), dynamically adjust the number of samples based on the posterior distribution of a set of pre-samples, reducing the cost of SC with minimal impact on performance. Both methods, however, do not exploit the prior information about question difficulty. It often results in unnecessary repeated sampling for easy questions that could be accurately answered with just one attempt, wasting resources. To tackle this problem, we propose Difficulty-Adaptive Self-Consistency (DSC), which leverages the difficulty information from both prior and posterior perspectives to adaptively allocate inference resources, further reducing the cost of SC. To demonstrate the effectiveness of DSC, we conduct extensive experiments on three popular categories of reasoning tasks: arithmetic, commonsense and symbolic reasoning on six benchmarks. The empirical results show that DSC consistently surpasses the strong baseline ASC and ESC in terms of costs by a significant margin, while attaining comparable performances.
Abstract（参考訳）: 連鎖推論に広く用いられている自己整合性(SC: Self-Consistency)は、様々な多段階推論タスクにおいて顕著な利得を示すが、プリセットサイズで複数のサンプリングを行うため、高いコストがかかる。適応自己整合性 (ASC) とアーリーストッピング自己整合性 (ESC) の変種は、一連のプリサンプルの後方分布に基づいて標本数を動的に調整し、性能への影響を最小限に抑えてSCのコストを下げる。しかし、どちらの手法も質問の難しさに関する事前の情報を利用していない。多くの場合、不必要な繰り返しサンプリングが行われ、簡単な質問が1回の試行で正確に答えられるようになり、リソースを無駄にします。この問題に対処するために,前と後の両方の観点からの難易度情報を活用して推論資源を適応的に割り当てることにより,SCのコストをさらに削減するDifficulty-Adaptive Self-Consistency (DSC)を提案する。 DSCの有効性を示すために、6つのベンチマークで算術、常識、記号的推論という3つの一般的な推論タスクのカテゴリについて広範な実験を行った。実験の結果,DSCは高いベースラインのASCとESCをほぼ上回り,性能は同等であった。

関連論文リスト

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
HS-STAR: Hierarchical Sampling for Self-Taught Reasoners via Difficulty Estimation and Budget Reallocation [23.476410355434655]
自己学習推論器(STaR)は、自己学習に自己生成応答を活用することにより、大規模言語モデル(LLM)の数学的推論能力を高める。本稿では,自己学習推論のための階層型サンプリングフレームワークHS-STaRを提案する。
論文参考訳（メタデータ） (2025-05-26T11:50:16Z)
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective [27.94738910330893]
強化学習は、大規模言語モデルの推論能力を高める可能性を示す。既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。本稿では,問題の正確かつ安定した推定を可能にするtextbfC$ompetence-$textbfD$ifficultyを提案する。
論文参考訳（メタデータ） (2025-05-23T09:15:26Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。 LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文参考訳（メタデータ） (2025-05-08T01:40:40Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
Confidence Improves Self-Consistency in LLMs [9.764747744761085]
信頼性インフォームド・セルフ一貫性(CISC)について紹介する。 CISCは、モデルから直接得られる信頼度スコアに基づいて、重み付けされた多数決を行う。 9つのモデルと4つのデータセットでテストすると、CISCはほぼすべての構成で自己整合性を上回っます。
論文参考訳（メタデータ） (2025-02-10T08:10:29Z)
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性(SC)は、生成されたサンプルの数に比例した計算コストをもたらす。我々は,サンプル生成数を調整する革新的な早期停止フレームワークであるReasoning-Aware Self-Consistency (RASC)を提案する。 RASCはサンプル使用量を平均80%削減し、元のSCに比べて5%まで精度を維持または改善した。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。 FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2024-07-02T08:38:31Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文参考訳（メタデータ） (2024-01-19T04:03:59Z)
Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文参考訳（メタデータ） (2023-06-08T18:10:37Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
Explaining with Greater Support: Weighted Column Sampling Optimization for q-Consistent Summary-Explanations [1.6262731094866383]
$q$-consistent summary-explanationは、一貫性をわずかに低くするコストで、より大きなサポートを達成することを目的としている。問題は、$q$-consistent summary-explanation (MSqC) の最大サポート問題は、元のMS問題よりもずっと複雑である。解の時間効率を改善するために,重み付きカラムサンプリング法(WCS)を提案する。
論文参考訳（メタデータ） (2023-02-09T09:40:30Z)
Label Distributionally Robust Losses for Multi-class Classification: Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文参考訳（メタデータ） (2021-12-30T00:27:30Z)
Evolutionary Optimization of High-Coverage Budgeted Classifiers [1.7767466724342065]
予算付き多機能分類器(MSC)プロセスは、部分的特徴取得および評価ステップのシーケンスを通じて入力される。本稿では,不確定な予測のための端末拒否オプションを組み込んだ問題固有MSCを提案する。アルゴリズムの設計は、一意化による集約性能の概念を尊重しながら効率を重視している。
論文参考訳（メタデータ） (2021-10-25T16:03:07Z)
On Efficient and Robust Metrics for RANSAC Hypotheses and 3D Rigid Registration [51.64236850960365]
本稿では, 高精度な3次元剛性登録を実現するために, RANSAC仮説の効率的かつ堅牢な評価指標の開発に焦点をあてる。 Inlierとoutlierのコントリビューションを分析し、RANSAC仮説の異なる設計モチベーションを持つ、いくつかの効率的で堅牢なメトリクスを提案する。
論文参考訳（メタデータ） (2020-11-10T02:22:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。