論文の概要: David vs. Goliath: Can Small Models Win Big with Agentic AI in Hardware Design?
- arxiv url: http://arxiv.org/abs/2512.05073v1
- Date: Thu, 04 Dec 2025 18:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.318652
- Title: David vs. Goliath: Can Small Models Win Big with Agentic AI in Hardware Design?
- Title(参考訳): David vs. Goliath: ハードウェア設計において、小さなモデルはエージェントAIで大きく勝てるか?
- Authors: Shashwat Shankar, Subhranshu Pandey, Innocent Dengkhw Mochahari, Bhabesh Mali, Animesh Basak Chowdhury, Sukanta Bhattacharjee, Chandan Karfa,
- Abstract要約: 大規模言語モデル(LLM)推論は膨大な計算量とエネルギーを必要とするため、ドメイン固有のタスクは高価で持続不可能である。
私たちの作業は、キュレートされたエージェントAIフレームワークと組み合わせた、小さな言語モデルを評価することで、これをテストします。
その結果,エージェントがLLMに近い性能を,コストのごく一部でアンロックできることが判明した。
- 参考スコア(独自算出の注目度): 1.1073671394363254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Model(LLM) inference demands massive compute and energy, making domain-specific tasks expensive and unsustainable. As foundation models keep scaling, we ask: Is bigger always better for hardware design? Our work tests this by evaluating Small Language Models coupled with a curated agentic AI framework on NVIDIA's Comprehensive Verilog Design Problems(CVDP) benchmark. Results show that agentic workflows: through task decomposition, iterative feedback, and correction - not only unlock near-LLM performance at a fraction of the cost but also create learning opportunities for agents, paving the way for efficient, adaptive solutions in complex design tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は膨大な計算量とエネルギーを必要とするため、ドメイン固有のタスクは高価で持続不可能である。
ファンデーションモデルがスケールし続けるにつれて、私たちは次のように尋ねる。
我々の研究は、NVIDIAのCVDP(Comprehensive Verilog Design Problems)ベンチマークでキュレートされたエージェントAIフレームワークと組み合わせて、Small Language Modelを評価することでこれを検証している。
その結果、エージェントワークフローは、タスクの分解、反復的なフィードバック、修正を通じて、コストのごく一部で近LLMのパフォーマンスをアンロックするだけでなく、エージェントの学習機会も生み出し、複雑な設計タスクにおける効率的で適応的なソリューションの道を開いた。
関連論文リスト
- Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs [49.99513618431772]
本稿では,モデル精度と推論性能を捉えるハードウェア共同設計法を提案する。
我々はNVIDIA Jetson Orin上で1,942の候補アーキテクチャを実証的に評価した。
我々のアーキテクチャはWikiText-2で19.42%低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2026-02-10T23:51:00Z) - Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - ARM: Discovering Agentic Reasoning Modules for Generalizable Multi-Agent Systems [8.609732664707497]
大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) は, 様々な複雑な推論タスクにおいて最先端の結果を得た。
近年,MASeの設計を自動化する技術が提案されている。
我々は、思考の連鎖(CoT)推論の最適化に焦点をあてる、自動MAS設計のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-07T10:04:48Z) - Hierarchical Reasoning Model [16.223136644998203]
HRMは、中間プロセスの明示的な監督なしに、1つのフォワードパスでシーケンシャルな推論タスクを実行する。
2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-26T19:39:54Z) - Comprehensive Verilog Design Problems: A Next-Generation Benchmark Dataset for Evaluating Large Language Models and Agents on RTL Design and Verification [6.0652877909448835]
ハードウェアと検証の研究を進めるための新しいデータセットとインフラであるComprehensive Verilog(CVDP)ベンチマークを提示する。
CVDPには、検証、デバッグ、生成、アライメント、技術的Q&Aなど、タスクカテゴリにまたがる783の問題がある。
問題は非エージェント型とエージェント型の両方で提供される。
論文 参考訳(メタデータ) (2025-06-17T00:11:13Z) - Efficient LLM Collaboration via Planning [56.081879390960204]
小規模で大規模なモデルでは、プランナーと実行担当者として交代で行動し、タスクを協調的に解決するために、多段階のカスケードでプランを交換する。
私たちはCOPEが大規模プロプライエタリモデルに匹敵するパフォーマンスを実現し,推論APIのコストを大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-06-13T08:35:50Z) - Gatekeeper: Improving Model Cascades Through Confidence Tuning [45.46791873454989]
カスケード構成の小型モデルを校正するための新しい損失関数「ゲートキーパー」を導入する。
我々のアプローチは、より小さなモデルを微調整して、より大規模なモデルに複雑なタスクを遅延させながら、正しく実行できるタスクを確実に処理する。
論文 参考訳(メタデータ) (2025-02-26T17:29:08Z) - AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。
Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文 参考訳(メタデータ) (2024-10-08T15:52:42Z) - Merino: Entropy-driven Design for Generative Language Models on IoT Devices [17.319634176922804]
モバイルフレンドリーな生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案する。
設計手順全体は、数理プログラミング(MP)問題を解くことを含み、数分でCPU上で実行でき、ほとんどコストがかからない。
我々は,14のNLPダウンストリームタスクにおいて,MeRinoと呼ばれる設計モデルを評価し,モバイル環境下での最先端の自己回帰変換モデルとの競合性能を示した。
論文 参考訳(メタデータ) (2024-02-28T03:20:27Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクを論理的なサブタスクとサブモジュールに分解するためのMoT命令チューニングフレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。