論文の概要: Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design
- arxiv url: http://arxiv.org/abs/2605.15871v1
- Date: Fri, 15 May 2026 11:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.26936
- Title: Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design
- Title(参考訳): ニューラルネットワークのエージェントディスカバリ - AIRA-ComposeとAIRA-Design
- Authors: Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach,
- Abstract要約: AIRA-Compose for High-level architecture search, AIRA-Design for Low-level mechanistic implementation。
AirA-Composeは11のエージェントを使用して24時間の予算の下で基本的な計算プリミティブを探索する。
AirAformers(Transformerベース)とAIRAhybrids(Transformer-Mamba)は一貫してLlama 3.2とComposer-foundベースラインを上回っている。
- 参考スコア(独自算出の注目度): 9.382770582572784
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.
- Abstract(参考訳): 再帰的自己改善に向けて,LLMエージェントは標準トランスフォーマーを超える基礎モデルを自律的に設計する。
AIRA-Compose for High-level architecture search, AIRA-Design for Low-level mechanistic implementation。
AIRA-Composeは11のエージェントを使用して24時間の予算の下で基本的な計算プリミティブを探索する。
エージェントは数百万のパラメーター候補を評価し、トップデザインを350M、1B、3Bスケールに外挿する。
AIRAformers (Transformer-based) と AIRAhybrids (Transformer-Mamba) である。
1Bスケールで事前訓練されたこれらは、Llama 3.2とComposer-foundベースラインを一貫して上回っている。
下流のタスクでは、AIRAformer-DとAIRAhybrid-Dは、Llama 3.2よりも2.4%、そして3.8%精度が向上する。
AIRAformer-CはLlama 3.2やComposer's Best Transformerよりも54%と71%速く、AIRAhybrid-CはNemotron-2を23%、Composer's Best Hybridを37%上回る。
AIRA-Designタスク20は、長距離依存とハイパフォーマンスなトレーニングスクリプトのための新しいアテンションメカニズムを記述する。
Long Range Arenaベンチマークでは、エージェント設計のアーキテクチャは、文書マッチングとテキスト分類に関する人間の最先端の2.3%と2.6%に到達している。
Autoresearchベンチマークでは、Greedy Opus 4.5が1バイト当たり0.968の検証ビットを固定時間予算で達成し、発行された最小値を上回っている。
これらのフレームワークは、AIエージェントが自動でアーキテクチャやアルゴリズム最適化を発見できることを示している。
これは次世代の基盤モデルを発見するための強力なパラダイムを確立し、再帰的な自己改善に向けた明確なステップを示す。
関連論文リスト
- PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents [53.369140518949656]
外部知識グラフ(KG)の統合により,大規模言語モデル(LLM)ベースのシステムを強化する新しいフレームワークであるPersonalAI 2.0(PAI-2)を紹介する。
提案手法は,動的でマルチステージなクエリ処理パイプラインを組み込むことにより,既存のGraphRAG(Retrieval-Augmented Generation)メソッドの重要な制限に対処する。
グラフアルゴリズム(例えば、BeamSearch、WaterCircles)は、平均6%の標準フラットテンレトリバーよりも優れた結果が得られる一方で、検索計画強化機構は、6つのデータセットにわたるLLM-as-a-Judgeによる障害アルゴリズムに比べて18%向上することを示す。
論文 参考訳(メタデータ) (2026-05-13T13:06:30Z) - RoboPhD: Evolving Diverse Complex Agents Under Tight Evaluation Budgets [0.2126018197183873]
本稿では,エロトーナメントの選択,EPA,グリーディヒルクライミングという3つの最適化パラダイムの体系的比較について述べる。
RoboPhDは、トレーニングとバリデーションの予算を分割する代わりに、トレーニングデータにEloコンペティションを使用してエージェントを同時に評価し、進化を促進する。
我々は、さまざまな複雑なエージェントを進化させるためのシンプルなOptimation_anything() APIを使って、MITライセンスの下で汎用ツールキットとしてRoboPhDをリリースした。
論文 参考訳(メタデータ) (2026-04-06T01:39:13Z) - WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning [82.12501258760814]
大規模言語モデル(LLM)ベースのエージェントは、Web情報検索において強力な能力を示している。
Plan anchorは、長期にわたるWeb推論タスクにおいて、最初の推論ステップが下流の動作に不均等に影響を与えている場所です。
計画と実行を分離する2段階のRLフレームワークであるAnchor-GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-06T16:36:40Z) - ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment [1.6968020497268546]
ROADは、最適化を検索ではなく動的デバッグ調査として扱う新しいフレームワークである。
道路はサンプリング効率が高く、成功率は5.6%、検索精度は3.8%向上している。
これらの結果は、ヒューマンエンジニアリングの失敗分析とパッチングのループを模倣することで、リソース集約的なトレーニングに代わる、実行可能なデータ効率の代替が可能になることを示唆している。
論文 参考訳(メタデータ) (2025-12-30T07:31:34Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - Investigating the Potential of Large Language Model-Based Router Multi-Agent Architectures for Foundation Design Automation: A Task Classification and Expert Selection Study [0.0]
シングルエージェント処理、マルチエージェントデザイナ-チェッカーアーキテクチャ、ルータベースのエキスパートセレクションの3つのアプローチが評価された。
性能評価はDeepSeek R1、ChatGPT 4 Turbo、Grok 3、Gemini 2.5 Proといったベースラインモデルを利用した。
その結果、ルータベースのマルチエージェントシステムは、プロのドキュメント標準を維持しつつ、基礎設計の自動化に最適なものとなった。
論文 参考訳(メタデータ) (2025-06-13T23:45:24Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。