論文の概要: Cognitive-YOLO: LLM-Driven Architecture Synthesis from First Principles of Data for Object Detection
- arxiv url: http://arxiv.org/abs/2512.12281v1
- Date: Sat, 13 Dec 2025 10:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.197737
- Title: Cognitive-YOLO: LLM-Driven Architecture Synthesis from First Principles of Data for Object Detection
- Title(参考訳): Cognitive-YOLO:オブジェクト検出のための第一原理データからのLLM駆動型アーキテクチャ合成
- Authors: Jiahao Zhao,
- Abstract要約: 本稿では,Large Language Models (LLM) によるアーキテクチャ合成のための新しいフレームワークであるCognitive-YOLOを提案する。
まず、分析モジュールがターゲットデータセットから重要なメタ特徴を抽出する。
第2に、LLMはこれらの特徴を理由として、Retrieval-Augmented Generation (RAG)を介して取得した最先端コンポーネントを付加し、アーキテクチャを構造化されたニューラルネットワーク記述言語(NADL)に合成する。
第三に、コンパイラは、この記述をデプロイ可能なモデルにインスタンス化する。
- 参考スコア(独自算出の注目度): 3.5554162308775408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing high-performance object detection architectures is a complex task, where traditional manual design is time-consuming and labor-intensive, and Neural Architecture Search (NAS) is computationally prohibitive. While recent approaches using Large Language Models (LLMs) show promise, they often function as iterative optimizers within a search loop, rather than generating architectures directly from a holistic understanding of the data. To address this gap, we propose Cognitive-YOLO, a novel framework for LLM-driven architecture synthesis that generates network configurations directly from the intrinsic characteristics of the dataset. Our method consists of three stages: first, an analysis module extracts key meta-features (e.g., object scale distribution and scene density) from the target dataset; second, the LLM reasons upon these features, augmented with state-of-the-art components retrieved via Retrieval-Augmented Generation (RAG), to synthesize the architecture into a structured Neural Architecture Description Language (NADL); finally, a compiler instantiates this description into a deployable model. Extensive experiments on five diverse object detection datasets demonstrate that our proposed Cognitive-YOLO consistently generates superior architectures, achieving highly competitive performance and demonstrating a superior performance-per-parameter trade-off compared to strong baseline models across multiple benchmarks. Crucially, our ablation studies prove that the LLM's data-driven reasoning is the primary driver of performance, demonstrating that a deep understanding of data "first principles" is more critical for achieving a superior architecture than simply retrieving SOTA components.
- Abstract(参考訳): 高性能なオブジェクト検出アーキテクチャの設計は複雑な作業であり、従来の手作業による設計は時間がかかり、労働集約的であり、ニューラルアーキテクチャサーチ(NAS)は計算的に禁止されている。
近年のLarge Language Models (LLM) を用いたアプローチは有望であるが、データの全体的理解から直接アーキテクチャを生成するのではなく、探索ループ内で反復最適化として機能することが多い。
このギャップに対処するため,本論文では,データセットの固有特性から直接ネットワーク構成を生成するLLM駆動アーキテクチャ合成のための新しいフレームワークであるCognitive-YOLOを提案する。
まず、分析モジュールがターゲットデータセットから重要なメタ機能(例えば、オブジェクトのスケール分布とシーン密度)を抽出し、次に、LLMの理由として、Retrieval-Augmented Generation (RAG)を介して取得した最先端コンポーネントを付加して、構造化されたニューラルネットワーク記述言語(NADL)にアーキテクチャを合成し、最後に、コンパイラがこの記述をデプロイ可能なモデルにインスタンス化する。
5つの多様なオブジェクト検出データセットに対する大規模な実験により、提案したCognitive-YOLOは、優れたアーキテクチャを一貫して生成し、高い競争性能を達成し、複数のベンチマークにわたる強力なベースラインモデルと比較して、性能/パラメータ間のトレードオフが優れていることを示した。
我々のアブレーション研究は、LLMのデータ駆動推論がパフォーマンスの原動力であることを証明し、データ"第一原則"の深い理解が、単にSOTAコンポーネントを回収するよりも優れたアーキテクチャを実現する上で重要であることを示した。
関連論文リスト
- From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding [55.5535016040221]
LM-Searcherは、クロスドメインニューラルネットワーク最適化のための新しいフレームワークである。
我々のアプローチの中心は、ニューラルネットワークのための普遍的な数値文字列表現であるNCodeである。
我々のデータセットは、幅広いアーキテクチャとパフォーマンスのペアを含み、堅牢で伝達可能な学習を促進する。
論文 参考訳(メタデータ) (2025-09-06T09:26:39Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - SEKI: Self-Evolution and Knowledge Inspiration based Neural Architecture Search via Large Language Models [11.670056503731905]
本稿では,新しい大規模言語モデル (LLM) に基づくニューラルアーキテクチャ探索 (NAS) 手法であるSEKIを紹介する。
現代のLLMにおけるチェーン・オブ・シント(CoT)パラダイムにインスパイアされたセキは、自己進化と知識蒸留という2つの重要な段階で動作している。
論文 参考訳(メタデータ) (2025-02-27T09:17:49Z) - Proficient Graph Neural Network Design by Accumulating Knowledge on Large Language Models [20.31388126105889]
DesiGNNは知識中心のフレームワークで、過去のモデル設計の経験を構造化されたきめ細かな知識に変換する。
目に見えないグラフ理解と既知の効果的なアーキテクチャパターンの固いメタ知識を構築することで、DesiGNNは、目に見えないデータセットに対するトップ5.77%の初期モデル提案を数秒で提供できる。
論文 参考訳(メタデータ) (2024-08-13T08:22:01Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Operation Embeddings for Neural Architecture Search [15.033712726016255]
最適化プロセスにおいて、固定演算子エンコーディングを学習可能な表現に置き換えることを提案する。
本手法は,同様の操作とグラフパターンを共有するトップパフォーマンスアーキテクチャを生成する。
論文 参考訳(メタデータ) (2021-05-11T09:17:10Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。