論文の概要: DiagramNet: An End-to-End Recognition Framework and Dataset for Non-Standard System-Level Diagrams
- arxiv url: http://arxiv.org/abs/2605.01338v1
- Date: Sat, 02 May 2026 09:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.714328
- Title: DiagramNet: An End-to-End Recognition Framework and Dataset for Non-Standard System-Level Diagrams
- Title(参考訳): DiagramNet:非標準システム-レベルダイアグラムのためのエンドツーエンド認識フレームワークとデータセット
- Authors: Jincheng Lou, Ruohan Xu, Jiapeng Li, Junyin Pi, Runzhe Tao, Weijian Fan, Xiao Tan, Guojie Luo, Yibo Lin,
- Abstract要約: システムレベル図のための最初のマルチモーダルデータセットであるDiagramNetを紹介する。
本稿では、複雑な視覚的推論を知覚、推論、知識の各段階に分解するプログレッシブトレーニングパイプラインを提案する。
DiagramNetベンチマークでは、提案したワークフローに3B-パラメータモデルを組み込むことで、2025 EDA Elite Challengeの勝者を超え、GPT-5、Claude-Sonnet-4、Gemini-2.5-Proをエンドツーエンド評価で2倍以上上回っている。
- 参考スコア(独自算出の注目度): 12.352523861911076
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: System-level diagrams encode the architectural blueprint of chip design, specifying module functions, dataflows, and interface protocols. However, non-standardized symbols and the scarcity of structured training data hinder existing multimodal large language models (MLLMs) from recognizing these diagrams. To address this gap, we introduce DiagramNet, the first multimodal dataset for system-level diagrams, comprising 10,977 connection annotations and 15,515 chain-of-thought QA pairs across four tasks: Listing, Localization, Connection, and Circuit QA. Building on this dataset, we propose a progressive training pipeline together with a decoupled multi-agent workflow that decomposes complex visual reasoning into Perception, Reasoning, and Knowledge stages. On the DiagramNet benchmark, integrating our 3B-parameter model with the proposed workflow surpasses the 2025 EDA Elite Challenge winner and outperforms GPT-5, Claude-Sonnet-4, and Gemini-2.5-Pro by over 2x in end-to-end evaluation. Notably, the workflow generalizes beyond our model, boosting Task 1 performance by 128.7x for Gemini-2.5-Pro and 12.4x for GPT-5. Furthermore, with only 60 images for detector adaptation, the method transfers effectively to AMSBench, achieving zero-shot connectivity reasoning on par with GPT-5 and Claude-Sonnet-4 while surpassing the AMS state-of-the-art method Netlistify.
- Abstract(参考訳): システムレベルのダイアグラムは、モジュール関数、データフロー、インターフェースプロトコルを指定して、チップ設計のアーキテクチャ図をエンコードする。
しかし、非標準化されたシンボルと構造化されたトレーニングデータの不足により、既存のマルチモーダル・大規模言語モデル(MLLM)はこれらの図を認識できなくなる。
このギャップに対処するため、ダイアグラムネットは10,977の接続アノテーションと15,515の連鎖QAペアからなるシステムレベルのダイアグラムの最初のマルチモーダルデータセットである。
このデータセットに基づいて、複雑な視覚的推論を知覚、推論、知識ステージに分解する、分離されたマルチエージェントワークフローとともに、プログレッシブトレーニングパイプラインを提案する。
DiagramNetベンチマークでは、提案されたワークフローに3Bパラメータモデルを組み込むことで、2025 EDA Elite Challengeの勝者を超え、GPT-5、Claude-Sonnet-4、Gemini-2.5-Proをエンドツーエンド評価で2倍以上に上回っている。
特に、ワークフローは我々のモデルを超えて一般化され、Gemini-2.5-Proではタスク1のパフォーマンスが128.7倍、GPT-5では12.4倍向上する。
さらに、検出器適応のための60枚の画像しか持たず、AMSBenchに効果的に転送し、GPT-5やClaude-Sonnet-4と同等のゼロショット接続推論を達成し、AMSの最先端手法であるNetlistifyを上回った。
関連論文リスト
- CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution [23.66187133157774]
CharTideは、チャート・ツー・コード生成のための新しいデータ中心のフレームワークである。
トレーニングを視覚的知覚、純粋テキストのコードロジック、モダリティの融合ストリームに明確に分離する。
ChartMimic、Plot2Code、ChartXの実験によると、ChartTide-7B/8Bはオープンソースベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-04-24T03:39:51Z) - Exascale Multi-Task Graph Foundation Models for Imbalanced, Multi-Fidelity Atomistic Data [0.07349072651956833]
本稿ではHydraGNN上に構築された原子構造グラフ基盤モデルを用いた材料発見のためのエクサスケールワークフローを提案する。
我々は、データセット毎のヘッドとスケーラブルなADIOS2/DDStoreデータパイプラインを備えたマルチタスクアーキテクチャを使用して、16のオープンなファーストプリンシプルデータセットを共同でトレーニングする。
結果として得られたモデルは、50秒で10億の原子構造を評価する、数十億のスケールのスクリーニングを可能にする。
論文 参考訳(メタデータ) (2026-04-15T23:27:09Z) - MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - OmniSch: A Multimodal PCB Schematic Benchmark For Structured Diagram Visual Reasoning [15.233703617342066]
我々は、スキーマ理解と空間ネットリストグラフ構築のLMMを評価するために設計された最初の総合ベンチマークであるOmniSchを紹介する。
この結果から,信頼性の低いきめ細かなグラウンド,不安定なレイアウト・ツー・グラフ解析,不整合なグローバル接続推論,非効率なビジュアル探索など,現在のLMMの解釈における大きなギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-03-31T21:51:36Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora [51.77079220622184]
完全自律的な知識グラフ構築のためのフレームワークであるAutoKGを提案する。
大規模言語モデルを利用して知識トリプルを同時に抽出し,テキストから直接包括的なスキーマを誘導する。
我々は,9億以上のノードと590億のエッジを持つ知識グラフ群であるATLAS(Automated Triple Linking And induction)を構築した。
論文 参考訳(メタデータ) (2025-05-29T16:34:58Z) - LLM-Based Emulation of the Radio Resource Control Layer: Towards AI-Native RAN Protocols [28.04609776570199]
大型AIモデル(LAM)はAI-Native Air Interface(AI-AI)の重要な実現要因である
本稿では,デコーダのみのLAMを用いた無線リソース制御層の最初の標準準拠エミュレーションを提案する。
その結果,LSMをプロトコル対応推論で拡張すると,制御プレーンの手順を直接オーケストレーションできることがわかった。
論文 参考訳(メタデータ) (2025-05-22T15:55:56Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Graph-to-SFILES: Control structure prediction from process topologies using generative artificial intelligence [0.0]
制御構造設計は、P&ID開発において重要なステップであるが面倒なステップである。
生成人工知能(AI)は、技術者を支援することによってP&ID開発時間を短縮することを約束する。
本稿では,フローシートトポロジから制御構造を予測するための生成AI手法であるGraph-to-SFILESモデルを提案する。
論文 参考訳(メタデータ) (2024-11-30T15:30:11Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。
約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。
我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文 参考訳(メタデータ) (2024-09-25T00:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。