論文の概要: LLM as a Neural Architect: Controlled Generation of Image Captioning Models Under Strict API Contracts
- arxiv url: http://arxiv.org/abs/2512.14706v1
- Date: Sun, 07 Dec 2025 10:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.773593
- Title: LLM as a Neural Architect: Controlled Generation of Image Captioning Models Under Strict API Contracts
- Title(参考訳): ニューラルネットワークとしてのLLM: 厳密なAPI契約下での画像キャプションモデルの生成制御
- Authors: Krunal Jesani, Dmitry Ignatov, Radu Timofte,
- Abstract要約: LLM誘導型ニューラルネットワーク探索パイプラインであるNN-Captionを提案する。
LEMURの分類バックボーンからCNNエンコーダを構成することで、実行可能な画像キャプチャモデルを生成する。
この作業では、プロンプトベースのコード生成と自動評価を統合するパイプラインを提示する。
- 参考スコア(独自算出の注目度): 48.83701310501069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural architecture search (NAS) traditionally requires significant human expertise or automated trial-and-error to design deep learning models. We present NN-Caption, an LLM-guided neural architecture search pipeline that generates runnable image-captioning models by composing CNN encoders from LEMUR's classification backbones with sequence decoders (LSTM/GRU/Transformer) under a strict Net API. Using DeepSeek-R1-0528-Qwen3-8B as the primary generator, we present the prompt template and examples of generated architectures. We evaluate on MS COCO with BLEU-4. The LLM generated dozens of captioning models, with over half successfully trained and producing meaningful captions. We analyse the outcomes of using different numbers of input model snippets (5 vs. 10) in the prompt, finding a slight drop in success rate when providing more candidate components. We also report training dynamics (caption accuracy vs. epochs) and the highest BLEU-4 attained. Our results highlight the promise of LLM-guided NAS: the LLM not only proposes architectures but also suggests hyperparameters and training practices. We identify the challenges encountered (e.g., code hallucinations or API compliance issues) and detail how prompt rules and iterative code fixes addressed them. This work presents a pipeline that integrates prompt-based code generation with automatic evaluation, and adds dozens of novel captioning models to the open LEMUR dataset to facilitate reproducible benchmarking and downstream AutoML research.
- Abstract(参考訳): ニューラルアーキテクチャサーチ(NAS)は伝統的に、ディープラーニングモデルを設計するために、重要な人間の専門知識や自動試行錯誤を必要とする。
我々は,LEMURの分類バックボーンからCNNエンコーダを,厳密なNet APIの下でシーケンスデコーダ(LSTM/GRU/Transformer)で構成することにより,実行可能な画像キャプションモデルを生成するLLM誘導型ニューラルネットワーク探索パイプラインであるNN-Captionを提案する。
DeepSeek-R1-0528-Qwen3-8B をプライマリジェネレータとし、生成したアーキテクチャのプロンプトテンプレートと例を示す。
BLEU-4によるMS COCOの評価を行った。
LLMは数十のキャプションモデルを生成し、半数以上のトレーニングが成功し、意味のあるキャプションを生み出した。
入力モデルスニペットの個数(5対10)をプロンプトで使用した結果を分析し、より多くの候補コンポーネントを提供する場合の成功率をわずかに低下させる。
また,訓練力学(キャプション精度対エポック)と最高BLEU-4を報告した。
LLMはアーキテクチャの提案だけでなく,ハイパーパラメータやトレーニングの実践も提案しています。
私たちは、遭遇した課題(例えば、コード幻覚やAPIコンプライアンスの問題)を特定し、ルールと反復的なコード修正がどのように対処されたのかを詳述します。
この研究は、プロンプトベースのコード生成と自動評価を統合し、再現可能なベンチマークと下流のAutoML研究を容易にするために、オープンなLEMURデータセットに数十の新しいキャプションモデルを追加するパイプラインを提示している。
関連論文リスト
- Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Style Attuned Pre-training and Parameter Efficient Fine-tuning for
Spoken Language Understanding [19.105304214638075]
音声言語理解学習のための新しいフレームワークを提案する。
このフレームワークは会話言語モデリング(CLM)事前学習タスクとライトエンコーダアーキテクチャで構成されている。
このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット上での最先端のSLU結果のパフォーマンスにマッチし、1タスクあたりのパラメータは4.4%に過ぎません。
論文 参考訳(メタデータ) (2020-10-09T03:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。