論文の概要: Resource-Efficient Iterative LLM-Based NAS with Feedback Memory
- arxiv url: http://arxiv.org/abs/2603.12091v1
- Date: Thu, 12 Mar 2026 16:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.19864
- Title: Resource-Efficient Iterative LLM-Based NAS with Feedback Memory
- Title(参考訳): フィードバックメモリを用いた資源有効反復型LCM型NAS
- Authors: Xiaojie Gu, Dmitry Ignatov, Radu Timofte,
- Abstract要約: ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
- 参考スコア(独自算出の注目度): 49.44875022114861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Architecture Search (NAS) automates network design, but conventional methods demand substantial computational resources. We propose a closed-loop pipeline leveraging large language models (LLMs) to iteratively generate, evaluate, and refine convolutional neural network architectures for image classification on a single consumer-grade GPU without LLM fine-tuning. Central to our approach is a historical feedback memory inspired by Markov chains: a sliding window of $K{=}5$ recent improvement attempts keeps context size constant while providing sufficient signal for iterative learning. Unlike prior LLM optimizers that discard failure trajectories, each history entry is a structured diagnostic triple -- recording the identified problem, suggested modification, and resulting outcome -- treating code execution failures as first-class learning signals. A dual-LLM specialization reduces per-call cognitive load: a Code Generator produces executable PyTorch architectures while a Prompt Improver handles diagnostic reasoning. Since both the LLM and architecture training share limited VRAM, the search implicitly favors compact, hardware-efficient models suited to edge deployment. We evaluate three frozen instruction-tuned LLMs (${\leq}7$B parameters) across up to 2000 iterations in an unconstrained open code space, using one-epoch proxy accuracy on CIFAR-10, CIFAR-100, and ImageNette as a fast ranking signal. On CIFAR-10, DeepSeek-Coder-6.7B improves from 28.2% to 69.2%, Qwen2.5-7B from 50.0% to 71.5%, and GLM-5 from 43.2% to 62.0%. A full 2000-iteration search completes in ${\approx}18$ GPU hours on a single RTX~4090, establishing a low-budget, reproducible, and hardware-aware paradigm for LLM-driven NAS without cloud infrastructure.
- Abstract(参考訳): ニューラルネットワークサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
大規模言語モデル(LLM)を利用して,LLMの微調整を行なわずに,単一のコンシューマグレードGPU上の画像分類のための畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
我々のアプローチの中心はマルコフ連鎖にインスパイアされた歴史的なフィードバックメモリである:$K{=}5$最近の改善の試みは、コンテキストサイズを一定に保つと同時に、反復学習のための十分な信号を提供しています。
障害軌跡を破棄する以前のLLMオプティマイザとは異なり、各履歴エントリは構造化された診断トリプルで、特定された問題を記録し、修正を提案し、その結果を結果として、コード実行障害を第一級の学習信号として扱う。
Code Generatorは実行可能なPyTorchアーキテクチャを生成し、Prompt Improverは診断推論を処理する。
LLMとアーキテクチャトレーニングの両方が限られたVRAMを共有しているため、検索はエッジ配置に適したコンパクトでハードウェア効率の良いモデルを暗黙的に好んでいる。
CIFAR-10, CIFAR-100, ImageNetteを高速なランク付け信号として, CIFAR-10, CIFAR-100, ImageNetteの1エポックプロキシ精度を用いて, 制限のないオープンコード空間で最大2000回の繰り返しにまたがる3つの凍結命令調整LDM({\leq}7$Bパラメータ)を評価した。
CIFAR-10では、DeepSeek-Coder-6.7Bは28.2%から69.2%、Qwen2.5-7Bは50.0%から71.5%、GLM-5は43.2%から62.0%に改善されている。
完全な2000項目検索は、1つのRTX〜4090で${\approx}18$GPU時間で完了し、クラウドインフラストラクチャなしでLLM駆動のNASに対して、低予算で再現性があり、ハードウェア対応のパラダイムを確立する。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - NNGPT: Rethinking AutoML with Large Language Models [36.90850535125572]
NNGPTは、大規模な言語モデル(LLM)を、ニューラルネットワーク開発のための自己改善型のAutoMLエンジンに変換する、オープンソースのフレームワークである。
ゼロショットアーキテクチャ合成、ハイパーパラメータ最適化、コード認識精度/早期停止予測、強化学習の5つのシナジスティックLLMベースのパイプラインに統合されている。
このシステムは、すでに5K以上の検証済みモデルを生成しており、自律的なAutoMLエンジンとしてNNGPTを証明している。
論文 参考訳(メタデータ) (2025-11-25T14:10:44Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Enhancing LLM-based Fault Localization with a Functionality-Aware Retrieval-Augmented Generation Framework [14.287359838639608]
FaR-Locは、メソッドレベルの障害ローカライゼーションを強化するフレームワークである。
FaR-Locは、LLM機能抽出、Semantic Retrieval、LLM再ランクの3つの重要なコンポーネントで構成されている。
広く使われているDefects4Jベンチマーク実験により、FaR-Locは最先端のLCMベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-09-24T20:37:11Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。