論文の概要: Solving a Million-Step LLM Task with Zero Errors
- arxiv url: http://arxiv.org/abs/2511.09030v1
- Date: Thu, 13 Nov 2025 01:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.365557
- Title: Solving a Million-Step LLM Task with Zero Errors
- Title(参考訳): ゼロエラーによる100万ステップLDMタスクの解決
- Authors: Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen,
- Abstract要約: 本稿では,100万 LLM ステップ以上のタスクをゼロエラーで解決した最初のシステムである MAKER について述べる。
その結果,現在のLLMの継続的な改善に頼るのではなく,大規模分解型エージェントプロセス(MDAP)は,組織や社会のレベルでの問題を効率的に解決する手段となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 13.911986576836568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have achieved remarkable breakthroughs in reasoning, insights, and tool use, but chaining these abilities into extended processes at the scale of those routinely executed by humans, organizations, and societies has remained out of reach. The models have a persistent error rate that prevents scale-up: for instance, recent experiments in the Towers of Hanoi benchmark domain showed that the process inevitably becomes derailed after at most a few hundred steps. Thus, although LLM research is often still benchmarked on tasks with relatively few dependent logical steps, there is increasing attention on the ability (or inability) of LLMs to perform long range tasks. This paper describes MAKER, the first system that successfully solves a task with over one million LLM steps with zero errors, and, in principle, scales far beyond this level. The approach relies on an extreme decomposition of a task into subtasks, each of which can be tackled by focused microagents. The high level of modularity resulting from the decomposition allows error correction to be applied at each step through an efficient multi-agent voting scheme. This combination of extreme decomposition and error correction makes scaling possible. Thus, the results suggest that instead of relying on continual improvement of current LLMs, massively decomposed agentic processes (MDAPs) may provide a way to efficiently solve problems at the level of organizations and societies.
- Abstract(参考訳): LLMは推論、洞察、ツールの使用において目覚ましいブレークスルーを達成したが、人間、組織、社会が日常的に行うような規模で、これらの能力を拡張プロセスに連鎖させ続けている。
例えば、ハノイのタワーズ・オブ・ハノイのベンチマーク・ドメインにおける最近の実験では、このプロセスは少なくとも数百ステップの後に必然的に脱線することを示した。
したがって、LLMの研究は、比較的依存する論理的なステップの少ないタスクでベンチマークされることが多いが、LLMの長距離タスクの実行能力(または不可能性)に注目が集まっている。
本稿では,100万 LLM ステップ以上のタスクをゼロエラーで解決した最初のシステムである MAKER について述べる。
このアプローチはタスクをサブタスクに極端に分解することに依存し、それぞれが焦点を絞ったマイクロエージェントによって取り組まれる。
分解によって生じる高レベルのモジュラリティは、効率的なマルチエージェント投票方式により、各ステップでエラー補正を適用することができる。
この極端な分解と誤り訂正の組み合わせは、スケーリングを可能にする。
以上の結果から,従来のLLMの継続的な改善に頼るのではなく,大規模に分解されたエージェントプロセス(MDAP)が,組織や社会のレベルでの問題を効率的に解決する手段となる可能性が示唆された。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Plan Verification for LLM-Based Embodied Task Completion Agents [10.439882851477162]
大規模言語モデル(LLM)に基づくタスク計画とそれに対応するAIの人間による実演は騒々しいかもしれない。
審査員が行動系列を批判し、プランナーLLMが修正を適用する反復検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T19:06:56Z) - Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives [8.713076928533846]
難しい問題をサブプロブレムに分解することで、解き易く、より効率的に解決できる。
本稿は,LLMプリミティブを用いた解析が,そのようなシステムの効率性について考慮する必要があることを論じる。
論文 参考訳(メタデータ) (2025-02-04T20:47:43Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。