論文の概要: LockForge: Automating Paper-to-Code for Logic Locking with Multi-Agent Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2511.18531v1
- Date: Sun, 23 Nov 2025 16:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.884149
- Title: LockForge: Automating Paper-to-Code for Logic Locking with Multi-Agent Reasoning LLMs
- Title(参考訳): LockForge:マルチエージェント推論LDMによる論理ロックのためのPaper-to-Codeの自動化
- Authors: Akashdeep Saha, Zeng Wang, Prithwish Basu Roy, Johann Knechtel, Ozgur Sinanoglu, Ramesh Karri,
- Abstract要約: 論文中のLL記述を実行可能なテストコードに変換するフレームワークであるLockForgeを紹介します。
LockForgeは、先入観、実装、反復的な改善、多段階検証を実現する、慎重に構築されたパイプラインを提供する。
LockForgeのような高度な推論モデルと高度なマルチステージフレームワークが必要であることを示す。
- 参考スコア(独自算出の注目度): 12.58767904165777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in logic locking (LL), reproducibility remains a challenge as codes are rarely made public. We present LockForge, a first-of-its-kind, multi-agent large language model (LLM) framework that turns LL descriptions in papers into executable and tested code. LockForge provides a carefully crafted pipeline realizing forethought, implementation, iterative refinement, and a multi-stage validation, all to systematically bridge the gap between prose and practice for complex LL schemes. For validation, we devise (i) an LLM-as-Judge stage with a scoring system considering behavioral checks, conceptual mechanisms, structural elements, and reproducibility on benchmarks, and (ii) an independent LLM-as-Examiner stage for ground-truth assessment. We apply LockForge to 10 seminal LL schemes, many of which lack reference implementations. Our evaluation on multiple SOTA LLMs, including ablation studies, reveals the significant complexity of the task. We show that an advanced reasoning model and a sophisticated, multi-stage framework like LockForge are required. We release all implementations and benchmarks, providing a reproducible and fair foundation for evaluation of further LL research.
- Abstract(参考訳): 論理ロック(LL)の急速な進歩にもかかわらず、コードを公開することはめったにないため、再現性は依然として課題である。
LockForgeは、文書中のLL記述を実行可能なコードに変換し、テスト可能なコードに変換する、LLM(Lock-of-in-kind, multi-agent large language model)フレームワークである。
LockForgeは、手続きと複雑なLLスキームの実践のギャップを体系的に橋渡しする、事前の作業、実装、反復的な改善、多段階の検証を実現する、慎重に構築されたパイプラインを提供する。
検証のために
一 ベンチマークにおける行動チェック、概念的メカニズム、構造的要素及び再現性を考慮した採点システムを有するLCM-as-Judgeステージ
(II)地盤構造評価のための独立LLM-as-Examinerステージ。
LockForgeを10のセミナルLLスキームに適用するが、その多くがリファレンス実装を欠いている。
アブレーション研究を含む複数のSOTA LLMに対する評価は,タスクの重大な複雑さを明らかにしている。
LockForgeのような高度な推論モデルと高度なマルチステージフレームワークが必要であることを示す。
我々はすべての実装とベンチマークをリリースし、LL研究のさらなる評価のための再現性と公正な基盤を提供します。
関連論文リスト
- seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。