論文の概要: Closed-Loop LLM Discovery of Non-Standard Channel Priors in Vision Models
- arxiv url: http://arxiv.org/abs/2601.08517v1
- Date: Tue, 13 Jan 2026 13:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.20443
- Title: Closed-Loop LLM Discovery of Non-Standard Channel Priors in Vision Models
- Title(参考訳): 視覚モデルを用いた非定常チャネル前駆体の閉ループLDM発見
- Authors: Tolgay Atinc Uzun, Dmitry Ignatov, Radu Timofte,
- Abstract要約: 大規模言語モデル(LLM)はニューラルアーキテクチャサーチ(NAS)に対する変換的アプローチを提供する
我々は、LLMが性能テレメトリに基づいてアーキテクチャ仕様を洗練する条件付きコード生成タスクのシーケンスとして検索を定式化する。
AST(Abstract Syntax Tree)変異を用いて,有効かつ整合性のあるアーキテクチャの膨大なコーパスを生成する。
CIFAR-100の実験結果は、この手法の有効性を検証し、精度の統計的に有意な改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 48.83701310501069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Channel configuration search the optimization of layer specifications such as layer widths in deep neural networks presents a complex combinatorial challenge constrained by tensor shape compatibility and computational budgets. We posit that Large Language Models (LLMs) offer a transformative approach to Neural Architecture Search (NAS), capable of reasoning about architectural code structure in ways that traditional heuristics cannot. In this paper, we investigate the application of an LLM-driven NAS framework to the problem of channel configuration. We formulate the search as a sequence of conditional code generation tasks, where an LLM refines architectural specifications based on performance telemetry. Crucially, we address the data scarcity problem by generating a vast corpus of valid, shape-consistent architectures via Abstract Syntax Tree (AST) mutations. While these mutated networks are not necessarily high-performing, they provide the critical volume of structural data required for the LLM to learn the latent relationship between channel configurations and model performance. This allows the LLM to internalize complex design patterns and apply them to optimize feature extraction strategies. Experimental results on CIFAR-100 validate the efficacy of this approach, demonstrating that the model yields statistically significant improvements in accuracy. Our analysis confirms that the LLM successfully acquires domain-specific architectural priors, distinguishing this method from random search and highlighting the immense potential of language-driven design in deep learning.
- Abstract(参考訳): チャネル構成探索 ディープニューラルネットワークにおける層幅などのレイヤ仕様の最適化は、テンソル形状の整合性や計算予算に制約された複雑な組合せ課題を示す。
我々は、Large Language Models(LLMs)が、従来のヒューリスティックスでは不可能な方法でアーキテクチャコード構造を推論できる、ニューラルアーキテクチャサーチ(NAS)への変革的なアプローチを提供すると仮定する。
本稿では,LLM駆動型NASフレームワークのチャネル構成問題への適用について検討する。
我々は、LLMが性能テレメトリに基づいてアーキテクチャ仕様を洗練する条件付きコード生成タスクのシーケンスとして検索を定式化する。
重要なことは、抽象構文木(AST)変異を用いて、有効で整合性のあるアーキテクチャの膨大なコーパスを生成することで、データ不足問題に対処する。
これらの変更されたネットワークは必ずしも高い性能を示すわけではないが、LLMがチャネル構成とモデル性能の潜伏関係を学習するのに必要な構造データの臨界量を提供する。
これにより、LLMは複雑な設計パターンを内部化し、それらを適用して特徴抽出戦略を最適化できる。
CIFAR-100の実験結果は、この手法の有効性を検証し、精度の統計的に有意な改善をもたらすことを示した。
この手法をランダム検索と区別し,ディープラーニングにおける言語駆動設計の潜在可能性を強調することによって,LLMがドメイン固有アーキテクチャの事前知識の獲得に成功していることを確認した。
関連論文リスト
- Cognitive-YOLO: LLM-Driven Architecture Synthesis from First Principles of Data for Object Detection [3.5554162308775408]
本稿では,Large Language Models (LLM) によるアーキテクチャ合成のための新しいフレームワークであるCognitive-YOLOを提案する。
まず、分析モジュールがターゲットデータセットから重要なメタ特徴を抽出する。
第2に、LLMはこれらの特徴を理由として、Retrieval-Augmented Generation (RAG)を介して取得した最先端コンポーネントを付加し、アーキテクチャを構造化されたニューラルネットワーク記述言語(NADL)に合成する。
第三に、コンパイラは、この記述をデプロイ可能なモデルにインスタンス化する。
論文 参考訳(メタデータ) (2025-12-13T10:52:54Z) - LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding [55.5535016040221]
LM-Searcherは、クロスドメインニューラルネットワーク最適化のための新しいフレームワークである。
我々のアプローチの中心は、ニューラルネットワークのための普遍的な数値文字列表現であるNCodeである。
我々のデータセットは、幅広いアーキテクチャとパフォーマンスのペアを含み、堅牢で伝達可能な学習を促進する。
論文 参考訳(メタデータ) (2025-09-06T09:26:39Z) - LLM-Guided Evolution: An Autonomous Model Optimization for Object Detection [0.0]
機械学習では、ニューラルネットワークサーチ(NAS)はモデル設計のドメイン知識と、有望なパフォーマンスを達成するために大量の試行錯誤を必要とする。
Large Language Model (LLM)-Guided Evolution (GE)フレームワークは、CIFARデータ上の画像分類アルゴリズムのモデルソースコードを直接修正するためにLLMを組み込むことによって、このアプローチを変革した。
LLM-GEは平均平均精度を92.5%から94.5%に向上させるなど,大幅な性能向上を図った。
論文 参考訳(メタデータ) (2025-04-03T05:06:06Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。