論文の概要: Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems
- arxiv url: http://arxiv.org/abs/2606.02863v1
- Date: Mon, 01 Jun 2026 20:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.592469
- Title: Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems
- Title(参考訳): Don't Gamble, GAMBLe: AI駆動リサーチシステムの分析フレームワーク
- Authors: Marquita Ellis, Paul Castro,
- Abstract要約: GAMBLeは,ADRSの動作を4つのパラメータに分解するフレームワークである。
単一のLLMから動的に適応するアンサンブルまで,760以上のレプリケーションされた実行環境上で,フレームワークを動作させる。
その結果、限られた予算(60回の実行)下であっても、適切なコンポーネントの選択は13~67%、検索効率は6~39倍向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI-Driven Research Systems (ADRS) -- systems coupling LLMs with automated evaluation to discover algorithms, proofs, and designs -- are being optimized and adopted across domains, but the tools to analyze them have not kept pace. ADRS performance depends on component interactions that are poorly understood, expensive to explore, and (as we show) not well captured by standard convergence guarantees. These guarantees rely on structural assumptions that do not hold under the ADRS process we formalize. We introduce GAMBLe, a framework that decomposes ADRS behavior into four parameters (generator $G$, assessor $\mathcal{A}$, discovery mechanism $\mathcal{M}$, budget $B$) and one compositional object, the effective landscape $L_{\text{eff}} = \mathcal{A} \circ G$, which reveals that distinct generator-assessor pairs induce structurally different per-problem optimization landscapes. We exercise the framework on 760+ replicated runs (>46,000 iterations) spanning generators from single LLMs to dynamically-adaptive ensembles, mechanisms from greedy selection to co-evolutionary meta-search, and three NP-hard problems whose assessors range from continuous scoring to cliff functions. The experiments reveal no total ordering of generators or mechanisms: frontier models can underperform open-source alternatives and the simplest mechanism sometimes outperforms state-of-the-art meta-search. Results show that even under limited budgets (60 iterations per run), the right component choices can improve performance by 13-67% and search efficiency by 6-39x.
- Abstract(参考訳): AI駆動リサーチシステム(ADRS) - LLMと自動評価を結合してアルゴリズム、証明、設計を発見するシステム。
ADRSのパフォーマンスは、理解が不十分で、探索するのに費用がかかり、標準収束保証によって十分に捉えられていないコンポーネント間の相互作用に依存します。
これらの保証は、私たちが形式化するADRSプロセスで保持しない構造的な仮定に依存します。
GAMBLeは,ADRSの振る舞いを4つのパラメータ(generator $G$, Assessmentor $\mathcal{A}$, discovery mechanism $\mathcal{M}$, budget $B$)と,有効ランドスケープ$L_{\text{eff}} = \mathcal{A} \circ G$に分解するフレームワークである。
我々は,単一LLMから動的適応アンサンブル,グリード選択から共進化メタサーチまでのメカニズム,連続的なスコアリングからフレーフ関数まで,3つのNPハード問題にまたがる760回以上の複製実行(>46,000回)について,フレームワークを実践する。
フロンティアモデルはオープンソースの代替品を過小評価でき、最も単純なメカニズムは時に最先端のメタサーチよりも優れている。
その結果、限られた予算(60回の実行)下であっても、適切なコンポーネントの選択は13~67%、検索効率は6~39倍向上することがわかった。
関連論文リスト
- optimize_anything: A Universal API for Optimizing any Text Parameter [98.42497715725356]
単一タスク検索をサポートする1つのAIベースの最適化システム、クロスプロブレム転送によるマルチタスク検索、および目に見えない入力への一般化を示す。
LLMに基づく検索によるテキストの最適化は汎用的な問題解決パラダイムであることを示す。
論文 参考訳(メタデータ) (2026-05-19T10:18:12Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Auto Researching, not hyperparameter tuning: Convergence Analysis of 10,000 Experiments [1.6498361958317636]
ダシュカム衝突検出を27日間にわたって行うために, 2つのLDMエージェントが108,000セルの構成空間上で実行する10,469の実験を分析した。
bftextarchitectural の選択はパフォーマンスの94%を説明してくれます。
エントロピーサイクルによるマルチエージェント探索のダイナミクスを特徴付けるとともに,エフェデレントな勝利バックボーン上での検証を行う。
論文 参考訳(メタデータ) (2026-03-16T21:05:39Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Fleet of Agents: Coordinated Problem Solving with Large Language Models [10.167121757937062]
Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。
FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
論文 参考訳(メタデータ) (2024-05-07T09:36:23Z) - Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition [2.6346614942667235]
計算予算が限られているコンフォーマーアーキテクチャの複雑さを軽減する方法について検討する。
コンフォーマーエンコーダにプログレッシブダウンサンプリングを導入し,グループアテンションと呼ばれる新しいアテンション機構を提案する。
同じコンピューティング予算内では、提案されたアーキテクチャは、より高速なトレーニングとデコードでより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-31T07:48:06Z) - Pareto-Frontier-aware Neural Architecture Generation for Diverse Budgets [93.79297053429447]
既存の手法は、しばしばそれぞれの目標予算を独立したアーキテクチャで検索する。
モデル推論のみで任意の予算で効率的なアーキテクチャを自動生成する汎用アーキテクチャ生成器を提案する。
3つのプラットフォーム(モバイル、CPU、GPUなど)における広範な実験は、提案手法が既存のNAS法よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-02-27T13:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。