論文の概要: AI Agents as Universal Task Solvers
- arxiv url: http://arxiv.org/abs/2510.12066v1
- Date: Tue, 14 Oct 2025 02:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.144327
- Title: AI Agents as Universal Task Solvers
- Title(参考訳): ユニバーサルタスクソリューションとしてのAIエージェント
- Authors: Alessandro Achille, Stefano Soatto,
- Abstract要約: 我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
- 参考スコア(独自算出の注目度): 94.49762121230042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI reasoning agents are already able to solve a variety of tasks by deploying tools, simulating outcomes of multiple hypotheses and reflecting on them. In doing so, they perform computation, although not in the classical sense -- there is no program being executed. Still, if they perform computation, can AI agents be universal? Can chain-of-thought reasoning solve any computable task? How does an AI Agent learn to reason? Is it a matter of model size? Or training dataset size? In this work, we reinterpret the role of learning in the context of AI Agents, viewing them as compute-capable stochastic dynamical systems, and highlight the role of time in a foundational principle for learning to reason. In doing so, we propose a shift from classical inductive learning to transductive learning -- where the objective is not to approximate the distribution of past data, but to capture their algorithmic structure to reduce the time needed to find solutions to new tasks. Transductive learning suggests that, counter to Shannon's theory, a key role of information in learning is about reduction of time rather than reconstruction error. In particular, we show that the optimal speed-up that a universal solver can achieve using past data is tightly related to their algorithmic information. Using this, we show a theoretical derivation for the observed power-law scaling of inference time versus training time. We then show that scaling model size can lead to behaviors that, while improving accuracy on benchmarks, fail any reasonable test of intelligence, let alone super-intelligence: In the limit of infinite space and time, large models can behave as savants, able to brute-force through any task without any insight. Instead, we argue that the key quantity to optimize when scaling reasoning models is time, whose critical role in learning has so far only been indirectly considered.
- Abstract(参考訳): AI推論エージェントはすでに、ツールをデプロイし、複数の仮説の結果をシミュレートし、それらを反映することによって、さまざまなタスクを解決している。
そうすることで計算を行うが、古典的な意味ではそうではないが、実行されているプログラムは存在しない。
それでも、計算を行う場合、AIエージェントは普遍的か?
連鎖推論は計算可能なタスクを解決できるのか?
AIエージェントはどのように推論を学ぶのか?
モデルサイズの問題でしょうか?
あるいはデータセットのサイズをトレーニングするか?
本研究では,AIエージェントの文脈における学習の役割を再解釈し,それらを計算可能な確率力学系とみなし,学習の基本原理としての時間の役割を強調する。
そこで我々は,従来の帰納的学習からトランスダクティブ学習へのシフトを提案し,その目的は過去のデータの分布を近似するのではなく,新しいタスクの解を見つけるのに必要な時間を短縮するために,アルゴリズム構造を捉えることである。
トランスダクティブ・ラーニング(Transductive learning)は、シャノンの理論に対抗して、学習における情報の主要な役割は、再構築の誤りよりも時間の短縮にあることを示唆している。
特に、過去のデータを用いて、普遍的な解法が達成できる最適なスピードアップは、アルゴリズム情報と密接に関連していることを示す。
これを用いて、推定時間とトレーニング時間との観測されたパワールールスケーリングの理論的導出を示す。
無限の空間と時間という限界の中では、大きなモデルは救世主として振る舞うことができ、どんなタスクでも見当もつかないでブルートフォースに振る舞うことができます。
代わりに、推論モデルをスケールする際に最適化する重要な量は時間であり、学習において重要な役割は、これまでは間接的にのみ考慮されてきた。
関連論文リスト
- Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving [26.413753656936688]
大規模言語モデル(LLM)は、正確で検証可能な計算を必要とする数学的推論タスクに苦慮することが多い。
結果に基づく報酬から強化学習(RL)がテキストベースの推論を強化する一方で、エージェントがコード実行のような外部ツールを活用するために自律的に学習する方法を理解することは依然として重要である。
論文 参考訳(メタデータ) (2025-05-12T17:23:34Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文 参考訳(メタデータ) (2022-02-11T18:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。