論文の概要: LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2605.08083v1
- Date: Fri, 08 May 2026 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.265157
- Title: LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
- Title(参考訳): LLMの改善 - テスト時間スケーリングのためのエージェントディスカバリ
- Authors: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang,
- Abstract要約: テストタイムスケーリング(TTS)は,大規模言語モデルの性能向上に有効なアプローチとなっている。
既存のTS戦略は、主に手作りであり、研究者はパターンを設計し、直感で調整し、計算割り当ての空間の多くを探索していない。
環境駆動型フレームワークであるAutoTTSを提案し、研究者が設計したものを、個々のTSからTTS戦略を自動的に発見できる環境へと変更する。
- 参考スコア(独自算出の注目度): 63.679448814185456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大規模言語モデルの性能向上に有効なアプローチとなっている。
研究者は手動で推論パターンを設計し、直感でヒューリスティックをチューニングし、計算配置の空間の多くを探索していない。
環境駆動型フレームワークであるAutoTTSを提案し、研究者が設計したものを、個々のTSヒューリスティックから、TS戦略を自動的に発見できる環境へと変更する。
AutoTTSの鍵は環境構築にある: 発見環境は制御空間をトラクタブルにし、TS検索に対して安価で頻繁なフィードバックを提供する必要がある。
具体的なインスタンス化として、制御器がいつ分岐、継続、プローブ、プルーネ、停止するかを判断し、繰り返しLCM呼び出しなしで安価に評価できる、事前コンパイルされた推論軌跡とプローブ信号に対する制御器合成として幅深のTSSを定式化する。
さらに,TTSプログラムがなぜ失敗するかをエージェントが診断するのを助けることで,検索の抽出可能かつきめ細かな実行トレースフィードバックを実現し,発見効率を向上させるために,ベータパラメータ化も導入する。
数学的推論ベンチマークの実験により、発見された戦略は、強い手動設計のベースラインに対するコストのトレードオフという、全体的な正確性を改善することが示されている。
発見戦略はホールドアウトベンチマークとモデルスケールに一般化され、発見全体の費用は39.9ドルと160分に過ぎなかった。
私たちのデータとコードはhttps://github.com/zhengkid/AutoTTS.comでオープンソース化されます。
関連論文リスト
- DAG-STL: A Hierarchical Framework for Zero-Shot Trajectory Planning under Signal Temporal Logic Specifications [7.389002274709231]
タスクに依存しない軌道データのみを用いて,未知の動的条件下でのオフラインSTL計画について検討する。
DAG-STLは長期STL計画を3段階に変換する階層的なフレームワークである。
Maze2D、OGBench AntMaze、Cubeドメインでの実験により、DAG-STLは直接ロバスト性誘導拡散を著しく上回ることが示された。
論文 参考訳(メタデータ) (2026-04-20T14:41:37Z) - IoT-Brain: Grounding LLMs for Semantic-Spatial Sensor Scheduling [9.212512544511576]
IoT-Brainは、前例のない信頼性と効率で物理世界と対話するフレームワークである。
我々は、IoT-Brainが最強の検索集約手法よりもタスク成功率を37.6%向上させることを示した。
実際のデプロイメントでは、信頼性の高い上限に近づき、ネットワーク帯域幅を4.1倍削減する。
論文 参考訳(メタデータ) (2026-04-09T09:38:15Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge [25.51206687438354]
我々は6つのTSシナリオをカバーする包括的なベンチマークである$textitEmergentTTS-Evalを紹介した。
我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークが容易にアクセスできます。
我々は、EmergentTTS-Eval上で、11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価した。
論文 参考訳(メタデータ) (2025-05-29T02:36:24Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。