論文の概要: Tool Building as a Path to "Superintelligence"
- arxiv url: http://arxiv.org/abs/2602.21061v1
- Date: Tue, 24 Feb 2026 16:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.837326
- Title: Tool Building as a Path to "Superintelligence"
- Title(参考訳): 超知能」への道筋としてのツール構築
- Authors: David Koplow, Tomer Galanti, Tomaso Poggio,
- Abstract要約: インテリジェントラーナーフレームワークは、LLMがテストタイムサーチによって超知能を達成することを示唆している。
論理的アウト・オブ・ディストリビューション推論で$$を測定するベンチマークを設計する。
大規模な推論を成功させるには、正確なツールコールが必要だと考えています。
- 参考スコア(独自算出の注目度): 7.762021543059531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Diligent Learner framework suggests LLMs can achieve superintelligence via test-time search, provided a sufficient step-success probability $γ$. In this work, we design a benchmark to measure $γ$ on logical out-of-distribution inference. We construct a class of tasks involving GF(2) circuit reconstruction that grow more difficult with each reasoning step, and that are, from an information-theoretic standpoint, impossible to reliably solve unless the LLM carefully integrates all of the information provided. Our analysis demonstrates that while the $γ$ value for small LLMs declines superlinearly as depth increases, frontier models exhibit partial robustness on this task. Furthermore, we find that successful reasoning at scale is contingent upon precise tool calls, identifying tool design as a critical capability for LLMs to achieve general superintelligence through the Diligent Learner framework.
- Abstract(参考訳): Diligent Learner フレームワークは LLM がテストタイムサーチによって超知能を達成することを示唆している。
そこで本研究では,論理的アウト・オブ・ディストリビューション推論に基づいて,$γ$を測定するベンチマークを設計する。
LLMが提供した情報をすべて注意深く統合しない限り、情報理論の観点から、我々はGF(2)回路再構築に関わるタスクのクラスを構築し、情報理論の観点から、確実に解決することができない。
解析の結果,小 LLM に対する$γ$ は深さが増加するにつれて超直線的に減少するが,フロンティアモデルでは部分的ロバスト性を示すことがわかった。
さらに,LLM におけるツール設計を,Dligent Learner フレームワークによる汎用超知能を実現するための重要な能力として認識し,高精度なツールコールによる大規模推論が成功していることがわかった。
関連論文リスト
- SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。
知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-09T08:52:27Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers [8.34574238496256]
本稿では,大規模言語モデルのツール利用能力を高めるための新しいフレームワークであるTUMSを提案する。
本フレームワークは,(1)LLMがタスクをよりよく理解するためのユーザ意図を識別するインテント認識器,(2)複雑なタスクを単純なサブタスクに分解するタスク分解器,(3)高精度なパラメータを生成するマルチ構造ハンドラを備えたサブタスクプロセッサの4つで構成されている。
我々の実証研究は、TUMSフレームワークの有効性と効率を、平均19.6%と50.6%で証明した。
論文 参考訳(メタデータ) (2025-05-13T09:57:28Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。