論文の概要: Convergence Theory for Iterative LLM-Based Neural Architecture Search: A Parametric Cross-Entropy Framework with Closed-Form Proxy Reliability
- arxiv url: http://arxiv.org/abs/2605.30103v1
- Date: Thu, 28 May 2026 15:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.443583
- Title: Convergence Theory for Iterative LLM-Based Neural Architecture Search: A Parametric Cross-Entropy Framework with Closed-Form Proxy Reliability
- Title(参考訳): 反復LLMに基づくニューラルネットワーク探索の収束理論:閉形式プロキシ信頼性を持つパラメトリッククロスエントロピーフレームワーク
- Authors: Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov,
- Abstract要約: 大規模言語モデル(LLM)は、反復型ニューラルアーキテクチャサーチ(NAS)におけるジェネレータとしてますます使われている。
我々は,LCM-NASを,実行可能プログラム上でのパラメトリッククロスエントロピー(CE)法としてモデル化する。
我々は,(1)エリートアーキテクチャの反復LEM微調整は,LLMファミリーに制限されたCE更新と同等であり,(2)期待されるアーキテクチャ品質はサイクル毎に単調に低下せず,(3)エリートセットの確率は幾何率で一定点に収束する,という6つの結果を示した。
- 参考スコア(独自算出の注目度): 48.83701310501069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as generators in iterative neural architecture search (NAS), yet no formal convergence theory exists for this class of algorithms. We model iterative LLM-NAS as a parametric Cross-Entropy (CE) method over executable programs and prove six results: (1) iterative LLM fine-tuning on elite architectures is equivalent to the CE update restricted to the LLM parametric family; (2) expected architecture quality is monotonically non-decreasing across cycles; (3) elite-set probability converges to a fixed point at a geometric rate C_t >= 1-(1-rho_0)^t; (4) delta-based generation achieves a strictly higher valid-generation rate than full-code generation under a first-order Markov token-error model; (5) the MinHash-Jaccard novelty filter prevents mode collapse; (6) proxy reliability admits the closed-form rho_S = (6/pi) arcsin(rho_P(SNR)/2), yielding the practical diagnostic sigma^2_arch >> sigma^2_noise as a necessary condition for trustworthy proxy-based rankings. Testing against a 22-cycle, three-LLM, six-dataset experiment with 3,300 generated architectures confirms two predictions quantitatively, two at direction-of-effect level, and explains the proxy-reliability ceiling effect previously reported empirically but left unexplained.
- Abstract(参考訳): 大規模言語モデル (LLM) は、反復型ニューラルネットワーク探索 (NAS) のジェネレータとしてますます使われているが、このアルゴリズムには正式な収束理論は存在しない。
LLM-NAS を実行可能プログラム上でのパラメトリッククロスエントロピー (CE) 法としてモデル化し,(1) エリートアーキテクチャの繰り返し LLM 微調整は LLM パラメトリックファミリーに制限されたCE 更新と等価である; (2) 期待されるアーキテクチャ品質はサイクルを通して単調に非減少する; (3) エリートセットの確率は幾何速度 C_t >= 1-(1-rho_0)^t で固定点に収束する; (4) デルタベースの生成は,1次マルコフトークンエラーモデルの下でのフルコード生成よりも厳密な有効生成率を達成する; (5) ミンハッシュ・ジャカルドのノベルティフィルタの崩壊を防ぐ; (6) プロキシは閉形式 rho (S_6/6/6) を許容する。
22サイクルの3-LLM、6データセットの3,300のアーキテクチャによるテストでは、2つの予測が定量的に確認されている。
関連論文リスト
- CasualSynth: Generating Structurally Sound Synthetic Data [44.80087038178069]
大言語モデル(LLM)は、現実的な合成データを生成するが、その出力がターゲットドメインを管理する因果的メカニズムを尊重することを保証しない。
本稿では,意味的実現から因果構造の生成を分離するフレームワークCausal Synthを紹介し,因果的妥当性と言語学的にリッチな合成データを生成する。
論文 参考訳(メタデータ) (2026-05-17T16:21:01Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - AgenticRS-EnsNAS: Ensemble-Decoupled Self-Evolving Architecture Search [10.111487060179252]
この記事では、Ensemble-Decoupled Architecture Searchを紹介します。
シングルラーナー評価からシステムレベルの性能を予測する。
候補毎の検索コストをO(M)からO(1)に削減し、O(M)のデプロイメントコストは評価された勝者に限られる。
論文 参考訳(メタデータ) (2026-03-20T14:57:15Z) - Token Coherence: Adapting MESI Cache Protocols to Minimize Synchronization Overhead in Multi-Agent LLM Systems [0.0]
マルチエージェントLLMオーケストレーションは、エージェント、ステップ、アーティファクトサイズにおいて、単純なブロードキャストの下でO(n x S x |D|)としてスケールする。
この病理は完全状態再放送の構造的残余であり、マルチエージェント協調の固有の性質ではないと私は主張する。
私はArtifact Coherence System(ACS)を構築し、Token Coherence Theoremを証明します。
論文 参考訳(メタデータ) (2026-03-16T12:20:06Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。