論文の概要: Test-time Scaling Techniques in Theoretical Physics -- A Comparison of Methods on the TPBench Dataset
- arxiv url: http://arxiv.org/abs/2506.20729v1
- Date: Wed, 25 Jun 2025 18:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.836776
- Title: Test-time Scaling Techniques in Theoretical Physics -- A Comparison of Methods on the TPBench Dataset
- Title(参考訳): 理論物理学におけるテスト時間スケーリング技術 -TPBenchデータセット上の方法の比較-
- Authors: Zhiqi Gao, Tianyi Li, Yurii Kvasiuk, Sai Chaitanya Tadepalli, Maja Rudolph, Daniel J. H. Chung, Frederic Sala, Moritz Münchmeyer,
- Abstract要約: 本稿では,TPBench物理データセット上での一般的なテスト時間スケーリング手法について検討する。
並列スケーリング結果を改善するための,新しい記号型弱検証フレームワークを開発した。
本研究は,複雑な科学的問題に対処するための段階的シンボリック検証の力を強調した。
- 参考スコア(独自算出の注目度): 13.530403536762064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong capabilities in complex reasoning, and test-time scaling techniques can enhance their performance with comparably low cost. Many of these methods have been developed and evaluated on mathematical reasoning benchmarks such as AIME. This paper investigates whether the lessons learned from these benchmarks generalize to the domain of advanced theoretical physics. We evaluate a range of common test-time scaling methods on the TPBench physics dataset and compare their effectiveness with results on AIME. To better leverage the structure of physics problems, we develop a novel, symbolic weak-verifier framework to improve parallel scaling results. Our empirical results demonstrate that this method significantly outperforms existing test-time scaling approaches on TPBench. We also evaluate our method on AIME, confirming its effectiveness in solving advanced mathematical problems. Our findings highlight the power of step-wise symbolic verification for tackling complex scientific problems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な推論において強力な能力を示しており、テストタイムスケーリング技術は、比較可能なコストでパフォーマンスを向上させることができる。
これらの手法の多くは、AIMEのような数学的推論ベンチマークに基づいて開発され、評価されている。
本稿では,これらのベンチマークから得られた教訓が,高度な理論物理学の領域に一般化するかどうかを考察する。
TPBench物理データセット上での一般的なテスト時間スケーリング手法の評価を行い,その有効性とAIMEの結果との比較を行った。
物理問題の構造をよりよく活用するために,並列スケーリング結果を改善するための新しい記号的弱検証フレームワークを開発した。
この手法がTPBenchの既存のテスト時間スケーリング手法よりも優れていることを示す実験結果を得た。
また,本手法をAIME上で評価し,高度な数学的問題の解法の有効性を確認した。
本研究は,複雑な科学的問題に対処するための段階的シンボリック検証の力を強調した。
関連論文リスト
- Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。
本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Deep Plug-and-Play HIO Approach for Phase Retrieval [0.0]
位相探索問題では、強度のみの測定から未知の画像の復元が目的である。
最近の学習に基づくアプローチは、いくつかの逆問題に対する分析手法の強力な代替手段として現れている。
学習に基づく事前かつ効率的な更新ステップを活用する,新しいプラグイン・アンド・プレイアプローチが紹介されている。
論文 参考訳(メタデータ) (2024-11-28T07:36:29Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - Discovering physical laws with parallel combinatorial tree search [57.05912962368898]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは10年以上にわたって精度と効率の重大なボトルネックに直面してきた。
制約データから汎用数学的表現を効率的に抽出する並列木探索(PCTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Dynamical Isometry based Rigorous Fair Neural Architecture Search [2.7850218655824803]
動的アイソメトリに基づくニューラルアーキテクチャ探索アルゴリズムを提案する。
well-conditioned Jacobian を用いて全加群の一般化誤差を推定することにより、我々の加群選択戦略が厳密な公正であることを証明する。
論文 参考訳(メタデータ) (2023-07-05T13:01:21Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Real-Time Model Calibration with Deep Reinforcement Learning [4.707841918805165]
本稿では,強化学習に基づくモデルパラメータ推定のための新しいフレームワークを提案する。
提案手法を2つのモデルベース診断試験ケースで実証し, 評価した。
論文 参考訳(メタデータ) (2020-06-07T00:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。