論文の概要: From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures
- arxiv url: http://arxiv.org/abs/2601.02997v1
- Date: Tue, 06 Jan 2026 13:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.942938
- Title: From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures
- Title(参考訳): 記憶から創造へ:新しいニューラルアーキテクチャの設計者としてのLLM
- Authors: Waleed Khalid, Dmitry Ignatov, Radu Timofte,
- Abstract要約: 大規模言語モデル(LLM)は、プログラム合成において優れているが、ニューラルネットワーク設計(信頼性、性能、構造的ノベルティ)を自律的にナビゲートする能力は、未調査のままである。
コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
- 参考スコア(独自算出の注目度): 48.83701310501069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in program synthesis, yet their ability to autonomously navigate neural architecture design--balancing syntactic reliability, performance, and structural novelty--remains underexplored. We address this by placing a code-oriented LLM within a closed-loop synthesis framework, analyzing its evolution over 22 supervised fine-tuning cycles. The model synthesizes PyTorch convolutional networks which are validated, evaluated via low-fidelity performance signals (single-epoch accuracy), and filtered using a MinHash-Jaccard criterion to prevent structural redundancy. High-performing, novel architectures are converted into prompt-code pairs for iterative fine-tuning via parameter-efficient LoRA adaptation, initialized from the LEMUR dataset. Across cycles, the LLM internalizes empirical architectural priors, becoming a robust generator. The valid generation rate stabilizes at 50.6 percent (peaking at 74.5 percent), while mean first-epoch accuracy rises from 28.06 percent to 50.99 percent, and the fraction of candidates exceeding 40 percent accuracy grows from 2.04 percent to 96.81 percent. Analyses confirm the model moves beyond replicating existing motifs, synthesizing 455 high-performing architectures absent from the original corpus. By grounding code synthesis in execution feedback, this work provides a scalable blueprint for transforming stochastic generators into autonomous, performance-driven neural designers, establishing that LLMs can internalize empirical, non-textual rewards to transcend their training data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラム合成において優れていますが、ニューラルネットワーク設計を自律的にナビゲートする能力があります。
コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
このモデルはPyTorch畳み込みネットワークを合成し、低忠実度性能信号(単一エポック精度)を用いて評価し、MinHash-Jaccard基準を用いてフィルタリングすることで構造的冗長性を防止する。
LEMURデータセットから初期化して、パラメータ効率のよいLoRA適応による反復的な微調整のために、高性能で斬新なアーキテクチャをプロンプトコードペアに変換する。
サイクル全体にわたって、LLMは経験的アーキテクチャの先行を内部化し、堅牢なジェネレータとなる。
有効生成率は50.6%(約74.5パーセント)で安定し、平均初期精度は28.06パーセントから50.99パーセントに上昇し、40%を超える候補者の比率は2.04%から96.81パーセントに上昇する。
分析によれば、モデルは既存のモチーフの複製を超えて、元のコーパスから欠落した455のハイパフォーマンスアーキテクチャを合成している。
この研究は、コード合成を実行フィードバックに基礎づけることで、確率的ジェネレータを自律的なパフォーマンス駆動型ニューラルデザイナに変換するためのスケーラブルな青写真を提供する。
関連論文リスト
- NNGPT: Rethinking AutoML with Large Language Models [36.90850535125572]
NNGPTは、大規模な言語モデル(LLM)を、ニューラルネットワーク開発のための自己改善型のAutoMLエンジンに変換する、オープンソースのフレームワークである。
ゼロショットアーキテクチャ合成、ハイパーパラメータ最適化、コード認識精度/早期停止予測、強化学習の5つのシナジスティックLLMベースのパイプラインに統合されている。
このシステムは、すでに5K以上の検証済みモデルを生成しており、自律的なAutoMLエンジンとしてNNGPTを証明している。
論文 参考訳(メタデータ) (2025-11-25T14:10:44Z) - wa-hls4ml: A Benchmark and Surrogate Models for hls4ml Resource and Latency Estimation [1.2929845407528824]
MLアクセラレータリソースと遅延推定のためのベンチマークであるwa-hls4mlを紹介する。
また、MLアクセラレータのレイテンシとリソースを予測するGNNおよびトランスフォーマーベースのサロゲートモデルも導入する。
論文 参考訳(メタデータ) (2025-11-06T17:18:13Z) - QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。
本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。
LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文 参考訳(メタデータ) (2025-11-03T03:20:26Z) - Beyond Single LLMs: Enhanced Code Generation via Multi-Stage Performance-Guided LLM Orchestration [12.674888937998086]
大規模言語モデル(LLM)は、自動コード生成の主要なパラダイムとなっている。
本稿では,マルチステージなパフォーマンス誘導オーケストレーションフレームワークを導入することで,シングルモデルコンベンションに挑戦する。
Perchは、ステージワイドバリデーションとロールバックメカニズムを通じて、各タスクコンテキストでトップパフォーマンスのLLMをオーケストレーションする。
論文 参考訳(メタデータ) (2025-10-01T19:07:16Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [52.2244588424002]
我々は,多様かつ現実的なデータの自動生成のためのスケーラブルなフレームワークであるRoboTwin 2.0を紹介する。
コアとなるRoboTwin-ODは、セマンティックおよび操作関連アノテーションを備えた147カテゴリにわたる771インスタンスのオブジェクトライブラリである。
sim-to-real転送を改善するために、RoboTwin 2.0は5つの軸に沿って構造化された領域ランダム化を適用する。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - Few-Shot Optimized Framework for Hallucination Detection in Resource-Limited NLP Systems [1.0124625066746595]
本稿では,DeepSeek Few-shotの最適化を導入し,反復的なプロンプトエンジニアリングによりラベル生成の弱さを高める。
下流モデルの性能を大幅に向上させる高品質なアノテーションを実現する。
さらに、これらの最適化アノテーションに基づいてMistral-7B-Instruct-v0.3モデルを微調整し、リソース制限設定における幻覚を正確に検出する。
論文 参考訳(メタデータ) (2025-01-28T01:26:22Z) - rule4ml: An Open-Source Tool for Resource Utilization and Latency Estimation for ML Models on FPGA [0.0]
本稿では、FPGA上での合成と実装に先立って、ニューラルネットワーク(NN)のリソース利用と推論遅延を予測する新しい手法を提案する。
NNを高レベル合成(HLS)コードに変換するツールフローであるHLS4MLを活用している。
本手法では, 即時前合成予測に適応した回帰モデルを用いる。
論文 参考訳(メタデータ) (2024-08-09T19:35:10Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。