論文の概要: Arch-LLM: Taming LLMs for Neural Architecture Generation via Unsupervised Discrete Representation Learning
- arxiv url: http://arxiv.org/abs/2503.22063v1
- Date: Fri, 28 Mar 2025 00:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:28:46.692790
- Title: Arch-LLM: Taming LLMs for Neural Architecture Generation via Unsupervised Discrete Representation Learning
- Title(参考訳): Arch-LLM: 教師なし離散表現学習によるニューラルネットワーク生成のためのLLMのモデリング
- Authors: Deshani Geethika Poddenige, Sachith Seneviratne, Damith Senanayake, Mahesan Niranjan, PN Suganthan, Saman Halgamuge,
- Abstract要約: 共通のアプローチは、分散アーキテクチャを連続的な表現空間にマッピングするために、変分オートエンコーダ(VAE)を使用することである。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入し,離散型ニューラルアーキテクチャとより自然に一致した離散潜在空間を学習する。
VAE法と比較して,本手法はNASBench-101では80%以上,NASBench-201では8%以上向上する。
- 参考スコア(独自算出の注目度): 2.981775461282335
- License:
- Abstract: Unsupervised representation learning has been widely explored across various modalities, including neural architectures, where it plays a key role in downstream applications like Neural Architecture Search (NAS). These methods typically learn an unsupervised representation space before generating/ sampling architectures for the downstream search. A common approach involves the use of Variational Autoencoders (VAEs) to map discrete architectures onto a continuous representation space, however, sampling from these spaces often leads to a high percentage of invalid or duplicate neural architectures. This could be due to the unnatural mapping of inherently discrete architectural space onto a continuous space, which emphasizes the need for a robust discrete representation of these architectures. To address this, we introduce a Vector Quantized Variational Autoencoder (VQ-VAE) to learn a discrete latent space more naturally aligned with the discrete neural architectures. In contrast to VAEs, VQ-VAEs (i) map each architecture into a discrete code sequence and (ii) allow the prior to be learned by any generative model rather than assuming a normal distribution. We then represent these architecture latent codes as numerical sequences and train a text-to-text model leveraging a Large Language Model to learn and generate sequences representing architectures. We experiment our method with Inception/ ResNet-like cell-based search spaces, namely NAS-Bench-101 and NAS-Bench-201. Compared to VAE-based methods, our approach improves the generation of valid and unique architectures by over 80% on NASBench-101 and over 8% on NASBench-201. Finally, we demonstrate the applicability of our method in NAS employing a sequence-modeling-based NAS algorithm.
- Abstract(参考訳): 教師なし表現学習は、ニューラルネットワーク(Neural Architecture Search:NAS)のような下流アプリケーションにおいて重要な役割を果たすニューラルネットワークなど、さまざまなモダリティで広く研究されている。
これらの手法は通常、下流探索のためのアーキテクチャの生成とサンプリングの前に教師なし表現空間を学習する。
一般的なアプローチでは、離散的なアーキテクチャを連続的な表現空間にマッピングするために、変分オートエンコーダ(VAE)を用いるが、これらの空間からのサンプリングは、しばしば、無効または重複したニューラルアーキテクチャの比率が高くなる。
これは、本質的に離散的なアーキテクチャ空間を連続的な空間に非自然にマッピングすることによるものであり、これらのアーキテクチャの堅牢な離散表現の必要性を強調している。
これを解決するために、ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入し、離散的ニューラルネットワークにより自然に整合した離散潜在空間を学習する。
VAEとは対照的に、VQ-VAE
i) 各アーキテクチャを個別のコードシーケンスにマッピングし、
(ii) 正規分布を仮定するのではなく、任意の生成モデルによって事前に学習できるようにする。
次に、これらのアーキテクチャ潜在符号を数値シーケンスとして表現し、大規模言語モデルを利用してアーキテクチャを表現するシーケンスを学習し、生成するテキストからテキストへのモデルを訓練する。
Inception/ResNet-like cell-based search space(NAS-Bench-101とNAS-Bench-201)を用いて実験を行った。
VAE法と比較して,本手法はNASBench-101では80%以上,NASBench-201では8%以上向上する。
最後に、シーケンスモデリングに基づくNASアルゴリズムを用いてNASにおける本手法の適用性を示す。
関連論文リスト
- Multi-conditioned Graph Diffusion for Neural Architecture Search [8.290336491323796]
本稿では、離散的な条件付きグラフ拡散プロセスを用いて、高性能ニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくNAS手法を提案する。
6つの標準ベンチマークで有望な結果を示し、新しいアーキテクチャとユニークなアーキテクチャを高速に実現します。
論文 参考訳(メタデータ) (2024-03-09T21:45:31Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - Efficacy of Neural Prediction-Based Zero-Shot NAS [0.04096453902709291]
ディープラーニングを用いたゼロショットニューラルアーキテクチャ探索(NAS)の新しい手法を提案する。
提案手法では,畳み込みカーネルを符号化した罪のフーリエ和を用いて,評価対象のアーキテクチャに類似した構造を持つ計算フィードフォワードグラフの構築を可能にする。
実験の結果,NAS-Bench-201データセットの相関関係から,グラフ畳み込みネットワークを用いた従来の手法よりも高い収束率を示すことがわかった。
論文 参考訳(メタデータ) (2023-08-31T14:54:06Z) - A General-Purpose Transferable Predictor for Neural Architecture Search [22.883809911265445]
本稿では,探索空間を横断的に移動可能なニューラルネットワーク探索(NAS)のための汎用ニューラルネットワーク予測器を提案する。
NAS-Bench-101, 201, 301の実験結果から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-21T17:28:05Z) - NASiam: Efficient Representation Learning using Neural Architecture
Search for Siamese Networks [76.8112416450677]
シームズネットワークは、自己教師付き視覚表現学習(SSL)を実現するための最も傾向のある方法の1つである。
NASiamは、初めて微分可能なNASを使用して、多層パーセプトロンプロジェクタと予測器(エンコーダ/予測器ペア)を改善する新しいアプローチである。
NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。
論文 参考訳(メタデータ) (2023-01-31T19:48:37Z) - BaLeNAS: Differentiable Architecture Search via the Bayesian Learning
Rule [95.56873042777316]
近年,微分可能なアーキテクチャ探索 (DARTS) が注目されている。
本稿では,アーキテクチャ重みをガウス分布に緩和することにより,ニューラルネットワーク探索を分布学習問題として定式化する。
ベイズ主義の原理から異なるNASがいかに恩恵を受け、探索を強化し、安定性を向上するかを実証する。
論文 参考訳(メタデータ) (2021-11-25T18:13:42Z) - Smooth Variational Graph Embeddings for Efficient Neural Architecture
Search [41.62970837629573]
本研究では,探索空間からニューラルネットワークをスムーズにエンコードし,正確に再構築できる2面変分グラフオートエンコーダを提案する。
ENASアプローチ,NAS-Bench-101およびNAS-Bench-201探索空間で定義されたニューラルネットワークに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-09T17:05:41Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Learning Architectures from an Extended Search Space for Language
Modeling [37.79977691127229]
ニューラルアーキテクチャサーチ(NAS)のセル内アーキテクチャとセル間アーキテクチャの両方を学ぶための一般的なアプローチを提案する。
繰り返しのニューラルネットワークモデリングでは、TBとWikiTextのデータに対して強力なベースラインをはるかに上回り、TBに新たな最先端技術が導入された。
学習したアーキテクチャは、他のシステムに優れた転送可能性を示す。
論文 参考訳(メタデータ) (2020-05-06T05:02:33Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。