論文の概要: A Compute-Matched Re-Evaluation of TroVE on MATH
- arxiv url: http://arxiv.org/abs/2507.22069v2
- Date: Thu, 31 Jul 2025 07:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.339768
- Title: A Compute-Matched Re-Evaluation of TroVE on MATH
- Title(参考訳): MATH上でのトロープ再評価
- Authors: Tobias Sesterhenn, Ian Berlot-Attwell, Janis Zenkner, Christian Bartelt,
- Abstract要約: コード生成の大規模言語モデル(Large Language Models)は、高レベルのツールボックスをインジェクションして再利用することによって、MATHベンチマークでも同じようにメリットがある、とTroVE氏は主張する。
しかし、最近の分析はこれらの利益に疑問を投げかけており、生成したツールは多くの場合、自明あるいは滅多に再利用されない。
本研究は,TroVEをMATH上で再評価し,各モードの影響を分析し,その利点がこれらのメカニズムによるものではないことを示す。
- 参考スコア(独自算出の注目度): 2.267930720289025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusing established theorems and formulas is central to mathematical problem solving, serving as essential building blocks for tackling increasingly complex challenges. Recent work, TroVE, argues that code-generating Large Language Models (LLMs) can benefit similarly on the MATH benchmark by inducing and reusing higher-level toolboxes. By allocating computational budget across an ensemble of three modes -- directly generating code, creating tools, and reusing tools -- TroVE claims to outperform a PRIMITIVE baseline that only performs direct generation. However, recent analysis (Berlot-Attwell et al., 2024) casts doubt on these gains, noting that the tools created are often trivial or rarely reused, suggesting that improvements may stem from self-consistency or self-correction. In this work, we re-evaluate TroVE on MATH, analyze the impact of each of its modes, and show that its benefit does not come from these mechanisms, but simply from a higher computational budget spent for TroVE compared to PRIMITIVE. To this end, we also perform a small correction in the original implementation of TroVE's selection mechanism, boosting TroVE's performance on MATH by 3\% in accuracy. After matching for compute, the benefit of TroVE reduces to a marginal improvement of 1\%, suggesting that this toolbox approach does not provide a significant benefit on MATH.
- Abstract(参考訳): 確立された定理や公式の再利用は数学的な問題解決の中心であり、ますます複雑な問題に取り組むための重要な構成要素となっている。
コード生成の大規模言語モデル(LLM)は、高レベルのツールボックスをインジェクションして再利用することによって、MATHベンチマークでも同じようにメリットがある、とTroVE氏は主張する。
直接コードを生成し、ツールを作成し、ツールを再利用する3つのモードのアンサンブルに計算予算を割り当てることで、TroVEは直接生成のみを行うPRIMITIVEベースラインを上回っていると主張している。
しかし、最近の分析 (Berlot-Attwell et al , 2024) はこれらの利得に疑問を呈し、作成したツールがしばしば自尊心や自己補正に起因する可能性があることを示唆している。
本研究は,TroVE on MATHを再評価し,それぞれのモードの影響を分析し,その利点がこれらのメカニズムからではなく,単にPRIMITIVEと比較してTroVEに費やされた計算予算から来ていることを示す。
この目的のために、TroVEの選択機構の当初の実装において小さな修正を行い、TroVEのMATHにおける性能を3倍の精度で向上させる。
計算にマッチした後、TroVEの利点は1\%の限界改善に還元され、このツールボックスアプローチはMATHに大きな利益をもたらすものではないことを示唆している。
関連論文リスト
- The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models [48.073219761367184]
複数出力の生成と複数ラウンドの反復のバランスをとるAPRパイプラインについて検討する。
3つのサイズ(1K, 30K, 65K)と2つのテクニック(フルファインチューニングとLoRA)を持つAPRデータセット上で各モデルを微調整する。
その結果,微調整データセットのごく一部(1%)しか使用せず,最大78%の改善が達成できた。
論文 参考訳(メタデータ) (2025-05-05T18:06:51Z) - Cache-a-lot: Pushing the Limits of Unsatisfiable Core Reuse in SMT-Based Program Analysis [2.867517731896504]
Satisfiability Modulo Theories (SMT) は、ココリックやシンボリックな実行のようなプログラム分析技術に不可欠な解法である。
キャッシュ・ア・ロット(Cache-a-lot)という新しい手法を提案し,全ての可能な変数置換を体系的に検討することによって,不満足な(不満足な)結果の再利用を拡大する。
論文 参考訳(メタデータ) (2025-04-10T10:43:42Z) - reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs [64.29893431743608]
現状の報奨モデルでは, 入力変換が小さい場合でも, 大幅な性能劣化に悩まされていることを示す。
同様のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案するが、この手法は他の異なる種類の変換に対する堅牢性も向上する。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Learning Randomized Reductions and Program Properties [12.027016519515477]
Bitweenは、数値プログラムにおけるランダム化(自己)推論とプログラム特性の自動学習の方法とツールである。
我々は、これらの削減を学習するための理論的枠組みを確立し、科学および機械学習機能におけるBitweenの機能を評価するベンチマークスイートであるRSR-Benchを紹介した。
論文 参考訳(メタデータ) (2024-12-24T03:42:53Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [60.55556283848063]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - Majorization-Minimization for sparse SVMs [46.99165837639182]
サポートベクタマシン(SVM)は、数十年前に教師付きフレームワークの下でバイナリ分類タスクを実行するために導入された。
それらはしばしば他の教師付き手法よりも優れており、マシンラーニング分野において最も一般的なアプローチの1つである。
本研究では,スムーズなスパースプロモーティング型正方形ヒンジ損失最小化によるSVMのトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-08-31T17:03:16Z) - Are Negative Samples Necessary in Entity Alignment? An Approach with
High Performance, Scalability and Robustness [26.04006507181558]
本稿では,高パフォーマンス,高スケーラビリティ,高ロバスト性を実現する3つの新しいコンポーネントを持つ新しいEA手法を提案する。
提案手法の有効性と有効性を検討するために,いくつかの公開データセットについて詳細な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T15:20:41Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。