論文の概要: David vs. Goliath: Can Small Models Win Big with Agentic AI in Hardware Design?
- arxiv url: http://arxiv.org/abs/2512.05073v1
- Date: Thu, 04 Dec 2025 18:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.318652
- Title: David vs. Goliath: Can Small Models Win Big with Agentic AI in Hardware Design?
- Title(参考訳): David vs. Goliath: ハードウェア設計において、小さなモデルはエージェントAIで大きく勝てるか?
- Authors: Shashwat Shankar, Subhranshu Pandey, Innocent Dengkhw Mochahari, Bhabesh Mali, Animesh Basak Chowdhury, Sukanta Bhattacharjee, Chandan Karfa,
- Abstract要約: 大規模言語モデル(LLM)推論は膨大な計算量とエネルギーを必要とするため、ドメイン固有のタスクは高価で持続不可能である。
私たちの作業は、キュレートされたエージェントAIフレームワークと組み合わせた、小さな言語モデルを評価することで、これをテストします。
その結果,エージェントがLLMに近い性能を,コストのごく一部でアンロックできることが判明した。
- 参考スコア(独自算出の注目度): 1.1073671394363254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Model(LLM) inference demands massive compute and energy, making domain-specific tasks expensive and unsustainable. As foundation models keep scaling, we ask: Is bigger always better for hardware design? Our work tests this by evaluating Small Language Models coupled with a curated agentic AI framework on NVIDIA's Comprehensive Verilog Design Problems(CVDP) benchmark. Results show that agentic workflows: through task decomposition, iterative feedback, and correction - not only unlock near-LLM performance at a fraction of the cost but also create learning opportunities for agents, paving the way for efficient, adaptive solutions in complex design tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は膨大な計算量とエネルギーを必要とするため、ドメイン固有のタスクは高価で持続不可能である。
ファンデーションモデルがスケールし続けるにつれて、私たちは次のように尋ねる。
我々の研究は、NVIDIAのCVDP(Comprehensive Verilog Design Problems)ベンチマークでキュレートされたエージェントAIフレームワークと組み合わせて、Small Language Modelを評価することでこれを検証している。
その結果、エージェントワークフローは、タスクの分解、反復的なフィードバック、修正を通じて、コストのごく一部で近LLMのパフォーマンスをアンロックするだけでなく、エージェントの学習機会も生み出し、複雑な設計タスクにおける効率的で適応的なソリューションの道を開いた。
関連論文リスト
- Hierarchical Reasoning Model [16.223136644998203]
HRMは、中間プロセスの明示的な監督なしに、1つのフォワードパスでシーケンシャルな推論タスクを実行する。
2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-26T19:39:54Z) - Efficient LLM Collaboration via Planning [56.081879390960204]
小規模で大規模なモデルでは、プランナーと実行担当者として交代で行動し、タスクを協調的に解決するために、多段階のカスケードでプランを交換する。
私たちはCOPEが大規模プロプライエタリモデルに匹敵するパフォーマンスを実現し,推論APIのコストを大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-06-13T08:35:50Z) - AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。
Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文 参考訳(メタデータ) (2024-10-08T15:52:42Z) - Merino: Entropy-driven Design for Generative Language Models on IoT Devices [17.319634176922804]
モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。
設計手順全体は、数理プログラミング(MP)問題を解くことを含み、数分でCPU上で実行でき、ほとんどコストがかからない。
我々は,14のNLPダウンストリームタスクにおいて,MeRinoと呼ばれる設計モデルを評価し,モバイル環境下での最先端の自己回帰変換モデルとの競合性能を示した。
論文 参考訳(メタデータ) (2024-02-28T03:20:27Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクを論理的なサブタスクとサブモジュールに分解するためのMoT命令チューニングフレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。