Fugu-MT 論文翻訳(概要): Tool Building as a Path to "Superintelligence"

論文の概要: Tool Building as a Path to "Superintelligence"

arxiv url: http://arxiv.org/abs/2602.21061v1
Date: Tue, 24 Feb 2026 16:22:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.837326
Title: Tool Building as a Path to "Superintelligence"
Title（参考訳）: 超知能」への道筋としてのツール構築
Authors: David Koplow, Tomer Galanti, Tomaso Poggio,
Abstract要約: インテリジェントラーナーフレームワークは、LLMがテストタイムサーチによって超知能を達成することを示唆している。論理的アウト・オブ・ディストリビューション推論で$$を測定するベンチマークを設計する。大規模な推論を成功させるには、正確なツールコールが必要だと考えています。
参考スコア（独自算出の注目度）: 7.762021543059531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Diligent Learner framework suggests LLMs can achieve superintelligence via test-time search, provided a sufficient step-success probability $γ$. In this work, we design a benchmark to measure $γ$ on logical out-of-distribution inference. We construct a class of tasks involving GF(2) circuit reconstruction that grow more difficult with each reasoning step, and that are, from an information-theoretic standpoint, impossible to reliably solve unless the LLM carefully integrates all of the information provided. Our analysis demonstrates that while the $γ$ value for small LLMs declines superlinearly as depth increases, frontier models exhibit partial robustness on this task. Furthermore, we find that successful reasoning at scale is contingent upon precise tool calls, identifying tool design as a critical capability for LLMs to achieve general superintelligence through the Diligent Learner framework.
Abstract（参考訳）: Diligent Learner フレームワークは LLM がテストタイムサーチによって超知能を達成することを示唆している。そこで本研究では,論理的アウト・オブ・ディストリビューション推論に基づいて,$γ$を測定するベンチマークを設計する。 LLMが提供した情報をすべて注意深く統合しない限り、情報理論の観点から、我々はGF(2)回路再構築に関わるタスクのクラスを構築し、情報理論の観点から、確実に解決することができない。解析の結果,小 LLM に対する$γ$ は深さが増加するにつれて超直線的に減少するが,フロンティアモデルでは部分的ロバスト性を示すことがわかった。さらに,LLM におけるツール設計を,Dligent Learner フレームワークによる汎用超知能を実現するための重要な能力として認識し,高精度なツールコールによる大規模推論が成功していることがわかった。

関連論文リスト

SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-09T08:52:27Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers [8.34574238496256]
本稿では,大規模言語モデルのツール利用能力を高めるための新しいフレームワークであるTUMSを提案する。本フレームワークは,(1)LLMがタスクをよりよく理解するためのユーザ意図を識別するインテント認識器,(2)複雑なタスクを単純なサブタスクに分解するタスク分解器,(3)高精度なパラメータを生成するマルチ構造ハンドラを備えたサブタスクプロセッサの4つで構成されている。我々の実証研究は、TUMSフレームワークの有効性と効率を、平均19.6%と50.6%で証明した。
論文参考訳（メタデータ） (2025-05-13T09:57:28Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
From Good to Great: Improving Math Reasoning with Tool-Augmented Interleaf Prompting [45.77084082197953]
IMP-TIP: Tool-augmented Interleaf Promptingによる数学推論の改善。 IMP-TIP: Tool-augmented Interleaf PromptingによるMath Reasoningの改善について紹介する。
論文参考訳（メタデータ） (2023-12-18T06:31:23Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。