Fugu-MT 論文翻訳(概要): CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs

論文の概要: CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs

arxiv url: http://arxiv.org/abs/2502.07980v1
Date: Tue, 11 Feb 2025 21:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.791125
Title: CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs
Title（参考訳）: CIRCUIT:LLMの回路解釈と推論能力のベンチマーク
Authors: Lejla Skelic, Yan Xu, Matthew Cox, Wenjie Lu, Tao Yu, Ruonan Han,
Abstract要約: 大規模言語モデル(LLM)の役割はアナログ回路設計において広く研究されていない。 CIRCUITデータセットを作成し、510組の質問応答ペアをアナログ回路関連項目の様々なレベルに分散させた。我々のデータセット上で最高の性能モデルであるGPT-4oは、最終数値で評価すると48.04%の精度が得られる。
参考スコア（独自算出の注目度）: 15.34624510334892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The role of Large Language Models (LLMs) has not been extensively explored in analog circuit design, which could benefit from a reasoning-based approach that transcends traditional optimization techniques. In particular, despite their growing relevance, there are no benchmarks to assess LLMs' reasoning capability about circuits. Therefore, we created the CIRCUIT dataset consisting of 510 question-answer pairs spanning various levels of analog-circuit-related subjects. The best-performing model on our dataset, GPT-4o, achieves 48.04% accuracy when evaluated on the final numerical answer. To evaluate the robustness of LLMs on our dataset, we introduced a unique feature that enables unit-test-like evaluation by grouping questions into unit tests. In this case, GPT-4o can only pass 27.45% of the unit tests, highlighting that the most advanced LLMs still struggle with understanding circuits, which requires multi-level reasoning, particularly when involving circuit topologies. This circuit-specific benchmark highlights LLMs' limitations, offering valuable insights for advancing their application in analog integrated circuit design.
Abstract（参考訳）: 大規模言語モデル(LLM)の役割はアナログ回路設計において広く研究されていないが、これは従来の最適化手法を超越した推論に基づくアプローチの恩恵を受ける可能性がある。特に、その関連性が高いにもかかわらず、回路に関するLCMの推論能力を評価するためのベンチマークは存在しない。そこで我々は,アナログ回路関連被験者のレベルにまたがる510の質問応答ペアからなるCIRCUITデータセットを作成した。我々のデータセット上で最高の性能モデルであるGPT-4oは、最終数値で評価すると48.04%の精度が得られる。データセット上でのLCMのロバスト性を評価するために,質問を単体テストにグループ化することで単体テストのような評価を可能にするユニークな機能を導入した。この場合、GPT-4oは単体テストの27.45%しか通過できず、最も先進的なLCMは理解回路に苦戦している。この回路固有のベンチマークはLLMの限界を強調し、アナログ集積回路設計におけるその応用を前進させる貴重な洞察を提供する。

関連論文リスト

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
Enhancing Large Language Models for Automated Homework Assessment in Undergraduate Circuit Analysis [5.995976425903575]
我々は,複数ステップのプロンプト,文脈データ拡張,ターゲットとなるヒントの取り込みにより,GPT-4oの性能を向上させる。 GPT-4oの正しい応答率は、強化されたプロンプトと拡張データを適用した後、74.71%から97.70%に増加する。
論文参考訳（メタデータ） (2025-11-22T23:43:00Z)
IF-CRITIC: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation [87.38454788767545]
本稿では,大規模言語モデルにおける命令追従の評価モデルであるIF-CRITICを提案する。 IF-CRITICが提供するスケーラブルな報酬信号により、LLMは命令追従最適化においてかなりの性能向上を達成することができる。
論文参考訳（メタデータ） (2025-11-02T17:06:49Z)
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文参考訳（メタデータ） (2025-10-09T17:53:58Z)
MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs [25.945493464645548]
電子設計自動化(EDA)における自動化と強化のための有望な機会を提供するマルチモーダル大言語モデル(MLLM) MMCircuitEvalは,多種多様なEDAタスク間のMLLM性能を評価するために設計された,最初のマルチモーダルベンチマークである。 MMCircuitEvalは、重要なEDAステージにまたがるデジタル回路とアナログ回路にまたがる3614の精巧にキュレートされた質問応答(QA)ペアから構成される。
論文参考訳（メタデータ） (2025-07-20T05:46:32Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Benchmarking Large Language Models on Homework Assessment in Circuit Analysis [5.040027178589699]
大規模言語モデル(LLM)は、コード開発、ロボティクス、金融、教育など、様々な分野に革命をもたらす可能性がある。本稿では,LLMを工学教育に活用する方法を検討する。我々は, GPT-3.5 Turbo, GPT-4o, Llama 3 70B など,様々な LLM の能力のベンチマークを行った。
論文参考訳（メタデータ） (2025-06-05T15:16:30Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
LLM-based AI Agent for Sizing of Analog and Mixed Signal Circuit [2.979579757819132]
大規模言語モデル (LLM) は様々な分野において大きな可能性を証明している。本研究では,AMS回路設計のためのLLMベースのAIエージェントを提案する。
論文参考訳（メタデータ） (2025-04-14T22:18:16Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Reliable Reasoning Beyond Natural Language [0.047888359248129786]
大きな言語モデル(LLM)は、しばしば、確実に柔軟に推論する能力の限界を示す。本稿では,問題文から全ての関連情報を論理コード文として抽出し,エンコードする手法を提案する。次に、論理型プログラミング言語(Prolog)を用いて、明示的な推論の反復的な計算を行う。
論文参考訳（メタデータ） (2024-07-16T04:34:18Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
InFoBench: Evaluating Instruction Following Ability in Large Language Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。 InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文参考訳（メタデータ） (2024-01-07T23:01:56Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。 NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。データポイントを毎月更新する動的更新メカニズムで設計されている。
論文参考訳（メタデータ） (2023-12-22T18:07:44Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。