論文の概要: Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies
- arxiv url: http://arxiv.org/abs/2406.06461v1
- Date: Mon, 10 Jun 2024 16:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:49:35.623744
- Title: Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies
- Title(参考訳): トークン経済における推論:LCM推論戦略の予算的評価
- Authors: Junlin Wang, Siddhartha Jain, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun,
- Abstract要約: 本稿では,計算予算を評価に組み込む枠組みを提案する。
複雑な推論戦略は、アルゴリズムの創発性のため、純粋に単純なベースラインを超えないことが多い。
自己整合性とは異なり、マルチエージェントの議論やリフレクションのような特定の戦略は、より多くの計算予算が利用されれば悪化する可能性がある。
- 参考スコア(独自算出の注目度): 24.875748056926213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diverse array of reasoning strategies has been proposed to elicit the capabilities of large language models. However, in this paper, we point out that traditional evaluations which focus solely on performance metrics miss a key factor: the increased effectiveness due to additional compute. By overlooking this aspect, a skewed view of strategy efficiency is often presented. This paper introduces a framework that incorporates the compute budget into the evaluation, providing a more informative comparison that takes into account both performance metrics and computational cost. In this budget-aware perspective, we find that complex reasoning strategies often don't surpass simpler baselines purely due to algorithmic ingenuity, but rather due to the larger computational resources allocated. When we provide a simple baseline like chain-of-thought self-consistency with comparable compute resources, it frequently outperforms reasoning strategies proposed in the literature. In this scale-aware perspective, we find that unlike self-consistency, certain strategies such as multi-agent debate or Reflexion can become worse if more compute budget is utilized.
- Abstract(参考訳): 大規模言語モデルの能力を引き出すための多種多様な推論戦略が提案されている。
しかし,本稿では,パフォーマンス指標のみに着目した従来の評価は,計算量の増加による有効性の増加という重要な要因を欠いていることを指摘する。
この側面を見渡すことで、戦略効率の歪んだ見方がしばしば提示される。
本稿では,計算予算を評価に組み込んだフレームワークを導入し,性能指標と計算コストの両面を考慮に入れた,より情報に富んだ比較を行う。
この予算面から見れば、複雑な推論戦略はアルゴリズムの創発性によって純粋に単純なベースラインを超越するのではなく、より多くの計算資源が割り当てられているためである。
計算資源に匹敵するチェーン・オブ・シンクの自己整合性のような単純なベースラインを提供する場合、文献で提案される推論戦略よりも優れていることがしばしばある。
このスケール・アウェアの観点からは、自己整合性とは異なり、より計算予算を活用すれば、マルチエージェントの議論やリフレクションのような特定の戦略が悪化する可能性がある。
関連論文リスト
- Attention is Naturally Sparse with Gaussian Distributed Input [8.602260591839318]
本研究では,Large Language Models (LLMs) における注意点の空間性に関する厳密な理論的解析を行った。
我々の主な貢献は、空間が注意機構にどのように現れるかに関する詳細な理論的考察を提供することであり、計算貯蓄とモデルの有効性の間の潜在的なトレードオフに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-03T12:37:34Z) - $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model [50.636423457653066]
我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-11T22:24:14Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - EERO: Early Exit with Reject Option for Efficient Classification with
limited budget [0.0]
本稿では,早期退避の問題をリジェクションオプション付き複数分類器を使用する問題に翻訳する新しい手法であるEEROを提案する。
我々は、固定予算を保証するために指数重の集約を用いて、異なる頭部で出口の確率を調整する。
Cifar と ImageNet のデータセット上で ResNet-18 モデルと ConvNext アーキテクチャを用いて実験を行った結果,提案手法は予算配分を効果的に管理するだけでなく,過度なシナリオの正確性も向上することが示された。
論文 参考訳(メタデータ) (2024-02-06T07:50:27Z) - Rethinking and Benchmarking Predict-then-Optimize Paradigm for
Combinatorial Optimization Problems [62.25108152764568]
多くのWebアプリケーションは、エネルギーコストを考慮したスケジューリング、Web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、最適化問題の解決に頼っている。
統一システムにおける予測と意思決定の性能について考察する。
我々は、現在のアプローチを包括的に分類し、既存の実験シナリオを統合する。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Active Learning on a Budget: Opposite Strategies Suit High and Low
Budgets [8.937905773981702]
予算が大きければ,非定型的な点が最善であるのに対して,典型的な点が低予算で問合せされるべきであることを示す。
低予算に適したディープラーニング戦略であるTypiClustを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:09:05Z) - Budget-Constrained Coalition Strategies with Discounting [15.076964620370266]
将来のコストと報酬の割引は、会計、ゲーム理論、機械学習の一般的なプラクティスです。
本稿では,その意味論にディスカウントを組み込んだ,予算制約付き戦略能力の推論のための,健全かつ完全な論理システムを提案する。
論文 参考訳(メタデータ) (2021-05-10T22:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。