論文の概要: ATLAS: Agentic Test-time Learning-to-Allocate Scaling
- arxiv url: http://arxiv.org/abs/2606.01667v1
- Date: Mon, 01 Jun 2026 04:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.974314
- Title: ATLAS: Agentic Test-time Learning-to-Allocate Scaling
- Title(参考訳): ATLAS: エージェントによるテスト時間学習とアロケートスケーリング
- Authors: Peijia Qin, Qi Cao, Pengtao Xie,
- Abstract要約: ATLASは、LLMオーケストレータが制御ループをエンドツーエンドに所有するエージェントテストタイムスケーリングフレームワークである。
我々は,ATLASを科学的質問応答,コード生成,マルチモーダル推論の4つのベンチマークで評価した。
- 参考スコア(独自算出の注目度): 24.932203210615512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling has become a major way to improve large language model reasoning, but its orchestration has remained designer-engineered: a fixed sample budget, a fixed refinement loop, a fixed scoring rule, or a fixed search policy decides how compute is spent, leaving the model in charge of solving but not of orchestration. We introduce ATLAS, an agentic test-time scaling framework in which an LLM orchestrator owns the control loop end-to-end. Through a single action, explore, which dispatches a fresh independent solver on the original problem, the orchestrator decides whether to gather more evidence, when to stop, and how to synthesize the final answer; the action space is extensible, with each explore call optionally specifying solver, reasoning effort, or prompting strategy. We evaluate ATLAS on four benchmarks covering scientific question answering, code generation, and multimodal reasoning under a Claude Sonnet 4.6 backbone, where it reaches 56.00% on HLE-Verified, 82.29% on LiveCodeBench, 85.75% on GPQA-Diamond, and 23.71% on BabyVision while using far fewer API calls than fixed-workflow baselines. A multi-model extension, ATLAS-MM, that exposes solver choice as an additional action dimension further improves HLE-Verified to 60.00% and LiveCodeBench to 85.63%, with consistent gains on GPQA-Diamond and BabyVision. Ablations replacing the orchestrator's direct synthesis with a separate integrator degrade or fail to improve accuracy on three of four benchmarks, consistent with the role of stateful evidence management in producing the gains.
- Abstract(参考訳): テストタイムのスケーリングは、大規模な言語モデルの推論を改善する主要な方法となっているが、そのオーケストレーションは、固定サンプル予算、固定リファインメントループ、固定スコアリングルール、あるいは固定検索ポリシーによって、どのように計算に費やされているかが決定され、モデルの解決は担当するがオーケストレーションは行わない。
我々は,LLMオーケストレータが制御ループをエンドツーエンドに所有するエージェント型テストタイムスケーリングフレームワークATLASを紹介する。
オーケストレータは、元の問題に対して独立した新しいソルバをディスパッチする単一のアクションを通じて、より多くのエビデンスを集め、いつ停止するか、最終的な答えをどのように合成するかを決定する。
我々は,HLE認証で56.00%,LiveCodeBenchで82.29%,GPQA-Diamondで85.75%,BabyVisionで23.71%,Claude Sonnet 4.6バックボーンで科学的質問応答,コード生成,マルチモーダル推論を対象とする4つのベンチマークで評価した。
追加のアクションディメンションとしてソルバ選択を公開するマルチモデル拡張であるATLAS-MMは、HLE-Verifiedを60.00%に改善し、LiveCodeBenchを85.63%に改善し、GPQA-DiamondとBabyVisionを一貫して改善した。
オーケストレータの直接合成を別個の積分器に置き換えるアブレーションは、4つのベンチマークのうち3つで精度を低下させるか、あるいは改善しなかった。
関連論文リスト
- ARES-LSHADE: Autoresearch-Enhanced LSHADE with Memetic Polish for the GNBG Benchmark [0.5186554442959231]
本稿では,ALS-LSHADEについて述べる。ALS-LSHADEは,LLMの設計した進化アルゴリズムに関するGECCO 2026コンペティションに提出された,メメティックな微分進化変種である。
このアルゴリズムはLLM-LSHADE 2025の勝者の上に構築され、2つの新しいコンポーネントに貢献した。
結果、アルゴリズムは24の関数全てを自明に解決したが、競合のブラックボックスルールに違反した。
論文 参考訳(メタデータ) (2026-05-09T15:16:00Z) - VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation [98.38575149237442]
VLAA-GUIは3つの統合コンポーネントを中心に構築されたモジュラーGUIフレームワークである。
必須完全性検証は、UIで観測可能な成功基準と検証を、各完了ステップで実施する。
強制的なループブレーカは、繰り返し失敗した後、多層切替インタラクションモードを提供する。
論文 参考訳(メタデータ) (2026-04-23T07:42:37Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。