論文の概要: From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation
- arxiv url: http://arxiv.org/abs/2604.27969v2
- Date: Tue, 05 May 2026 02:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.147847
- Title: From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation
- Title(参考訳): ミラージュからグラウンドニングへ:信頼性の高いマルチモーダル回路からVerilogコード生成に向けて
- Authors: Guang Yang, Xing Hu, Xiang Chen, Xin Xia,
- Abstract要約: 回路図は、ハードウェアの視覚的なドメイン固有言語と見なすことができる。
このような図をレジスタ-トランスファーレベル(RTL)コードに変換することは、視覚-コード生成のための極めて信頼性の高いテストである。
回路図を空白の画像に置き換えると、Pass@kは変わらないかそれ以上になるのです。
- 参考スコア(独自算出の注目度): 16.148817642071638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly used to translate visual artifacts into code, from UI mockups into HTML to scientific plots into Python scripts. A circuit diagram can be viewed as a visual domain-specific language for hardware: it encodes timing, topology, and bit level semantics that are invisible to casual inspection yet safety critical once fabricated in silicon. Translating such diagrams into register-transfer-level(RTL) code therefore represents an extreme reliability test for vision-to-code generation. We reveal a phenomenon we call Mirage: replacing a circuit diagram with a blank image leaves Pass@k unchanged or even higher, because models bypass the visual input and instead exploit identifier semantics in the module header to retrieve canonical RTL templates. This constitutes a new, highly covert class of defect in AI-assisted code generation that directly undermines MLLMs' trustworthiness. To quantify the effect, we construct C2VEVAL and evaluate eight MLLMs under a paired Normal/Anony protocol in which Anony mode anonymizes all identifiers in both the diagram and the module header; Anony-mode scores drop sharply across all models, confirming that high Normal-mode accuracy is largely a Mirage. We then propose VeriGround (4B), trained with identifier anonymization, refusal augmentation, and D-ORPO (Decision-Focused ORPO) preference alignment that up-weights pivotal generate-or-refuse tokens. VeriGround achieves Functional Pass@1 of 46.11%/42.51%(Normal/Anony) with a False Refusal Rate of only 1.20%/0.00%, while maintaining >92% Refusal Rate on blank images. With only 4B parameters, VeriGround performs on par with GPT-5.4 under Normal and significantly outperforms all baselines under Anony, confirming genuine visual grounding.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、UIモックアップからHTML、科学的なプロットからPythonスクリプトまで、視覚的なアーティファクトをコードに変換するためにますます使われている。
回路図は、ハードウェアの視覚的なドメイン固有言語として見ることができ、タイミング、トポロジ、ビットレベルのセマンティクスをエンコードする。
このような図をレジスタ-トランスファーレベル(RTL)コードに変換することは、視覚-コード生成における極めて信頼性の高いテストである。
モデルは視覚入力をバイパスし、代わりにモジュールヘッダの識別子セマンティクスを利用して標準的なRTLテンプレートを検索するためです。
これは、MLLMの信頼性を損なうAIアシストコード生成の、新たな、非常に隠蔽された欠陥クラスを構成する。
この効果を定量化するために、我々はC2VEVALを構築し、Anonyモードがダイアグラムとモジュールヘッダの両方の識別子を匿名化して8つのMLLMを評価する。
次に、識別子匿名化、拒否拡張、D-ORPO(Decision-Focused ORPO)設定アライメントで訓練されたVeriGround (4B)を提案する。
VeriGroundは46.11%/42.51%(Normal/Anony)の機能パスを1.20%/0.00%で達成している。
4Bパラメータだけで、VeriGround は通常の GPT-5.4 と同等に動作し、Anony の全てのベースラインを著しく上回り、真の視覚的接地を確認している。
関連論文リスト
- VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer [18.348454274148185]
ゼロショット異常検出(ZSAD)では、ターゲットクラスの異常サンプルにアクセスせずに異常を検出し、位置を特定する必要がある。
この作業は、ZSADのテキストブランチの必要性を再考し、ビジョントランスフォーマー上に構築された純粋に視覚的なフレームワークであるVisualADを提示する。
VisualADは、産業ドメインと医療ドメインにまたがる13のゼロショット異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-09T04:33:56Z) - Multimodal Large Language Models as Image Classifiers [14.022566577479322]
マルチモーダル大言語モデル(MLLM)の分類性能は,評価プロトコルと基礎的真理品質に大きく依存する。
提供されるクラスリストの外側にあるモデル出力は破棄され、弱い多重選択の散らばった結果が膨らませられ、出力マッピングの貧弱さによってのみ性能が低下するオープンワールド設定が実現されます。
我々は,MLLMがヒトのアノテータを補助できることを示す。制御されたケーススタディでは,MLLMの予測が難しいケースの約50%で確認または統合されている。
論文 参考訳(メタデータ) (2026-03-06T18:59:58Z) - Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks [4.888851550406879]
本稿では,映像中の「概念的感情」の自動認識に取り組むための弱視的枠組みを提案する。
実験により、厳密なクラス不均衡にもかかわらず、提案手法は以前の作業で0.6以下から0.69以上に上昇することが示された。
論文 参考訳(メタデータ) (2026-02-08T17:02:55Z) - Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - Measuring Epistemic Humility in Multimodal Large Language Models [17.490955813494693]
HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。
我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。
HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
論文 参考訳(メタデータ) (2025-09-11T17:54:00Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。