論文の概要: CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2502.07980v1
- Date: Tue, 11 Feb 2025 21:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:50.923553
- Title: CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs
- Title(参考訳): CIRCUIT:LLMの回路解釈と推論能力のベンチマーク
- Authors: Lejla Skelic, Yan Xu, Matthew Cox, Wenjie Lu, Tao Yu, Ruonan Han,
- Abstract要約: 大規模言語モデル(LLM)の役割はアナログ回路設計において広く研究されていない。
CIRCUITデータセットを作成し、510組の質問応答ペアをアナログ回路関連項目の様々なレベルに分散させた。
我々のデータセット上で最高の性能モデルであるGPT-4oは、最終数値で評価すると48.04%の精度が得られる。
- 参考スコア(独自算出の注目度): 15.34624510334892
- License:
- Abstract: The role of Large Language Models (LLMs) has not been extensively explored in analog circuit design, which could benefit from a reasoning-based approach that transcends traditional optimization techniques. In particular, despite their growing relevance, there are no benchmarks to assess LLMs' reasoning capability about circuits. Therefore, we created the CIRCUIT dataset consisting of 510 question-answer pairs spanning various levels of analog-circuit-related subjects. The best-performing model on our dataset, GPT-4o, achieves 48.04% accuracy when evaluated on the final numerical answer. To evaluate the robustness of LLMs on our dataset, we introduced a unique feature that enables unit-test-like evaluation by grouping questions into unit tests. In this case, GPT-4o can only pass 27.45% of the unit tests, highlighting that the most advanced LLMs still struggle with understanding circuits, which requires multi-level reasoning, particularly when involving circuit topologies. This circuit-specific benchmark highlights LLMs' limitations, offering valuable insights for advancing their application in analog integrated circuit design.
- Abstract(参考訳): 大規模言語モデル(LLM)の役割はアナログ回路設計において広く研究されていないが、これは従来の最適化手法を超越した推論に基づくアプローチの恩恵を受ける可能性がある。
特に、その関連性が高いにもかかわらず、回路に関するLCMの推論能力を評価するためのベンチマークは存在しない。
そこで我々は,アナログ回路関連被験者のレベルにまたがる510の質問応答ペアからなるCIRCUITデータセットを作成した。
我々のデータセット上で最高の性能モデルであるGPT-4oは、最終数値で評価すると48.04%の精度が得られる。
データセット上でのLCMのロバスト性を評価するために,質問を単体テストにグループ化することで単体テストのような評価を可能にするユニークな機能を導入した。
この場合、GPT-4oは単体テストの27.45%しか通過できず、最も先進的なLCMは理解回路に苦戦している。
この回路固有のベンチマークはLLMの限界を強調し、アナログ集積回路設計におけるその応用を前進させる貴重な洞察を提供する。
関連論文リスト
- Logic Synthesis Optimization with Predictive Self-Supervision via Causal Transformers [19.13500546022262]
LSOformerは、自動回帰トランスフォーマーモデルと予測SSLを利用して、結果の質の軌道(QoR)を予測する新しいアプローチである。
LSOformerは、クロスアテンションモジュールを統合して、回路グラフと最適化シーケンスからの洞察をマージし、QoRメトリクスの予測精度を向上させる。
論文 参考訳(メタデータ) (2024-09-16T18:45:07Z) - Reliable Reasoning Beyond Natural Language [0.047888359248129786]
大きな言語モデル(LLM)は、しばしば、確実に柔軟に推論する能力の限界を示す。
本稿では,問題文から全ての関連情報を論理コード文として抽出し,エンコードする手法を提案する。
次に、論理型プログラミング言語(Prolog)を用いて、明示的な推論の反復的な計算を行う。
論文 参考訳(メタデータ) (2024-07-16T04:34:18Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
論文 参考訳(メタデータ) (2023-12-22T18:07:44Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。