論文の概要: DiagramRAG: A Lightweight Framework to Retrieve Scientific Diagram for Figure Generation
- arxiv url: http://arxiv.org/abs/2605.27931v1
- Date: Wed, 27 May 2026 04:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.737465
- Title: DiagramRAG: A Lightweight Framework to Retrieve Scientific Diagram for Figure Generation
- Title(参考訳): DiagramRAG: 図生成のための科学図を検索する軽量フレームワーク
- Authors: Xinjiang Yu, Junyi Han, Zhuofan Chen, Chi Zhang, Xiangyu Fu, Jingyuan Tan, Zirui You, Yixiang Jian, Yu-Ping Wang, Chengliang Chai,
- Abstract要約: スケッチに基づく科学図作成のための軽量な検索拡張フレームワークであるDiagramRAGを紹介する。
ユーザスケッチが与えられたら、DiagramRAGは、スケッチの内容に意味的に関連し、その構造とトポロジ的に互換性のある参照ダイアグラムを検索する。
実験の結果,DigramRAG は DiagramBank と FigureBench でそれぞれ 0.848 と 0.802 の F1 スコアを獲得し,VLM-as-a-Judge スコア 7.170 で生成品質を向上させることがわかった。
- 参考スコア(独自算出の注目度): 9.701968199439387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific diagrams are essential for communicating complex methodologies in academic papers. A natural way for researchers to specify such diagrams is through rough sketches, where text labels, connectors, and spatial arrangements express early semantic and topological intentions. However, sketches are usually incomplete, making them insufficient for directly producing publication-quality diagrams. Existing sketch-based generation methods mainly reconstruct the sketch itself, while recent text-driven diagram generation frameworks rely on textual semantics and do not fully exploit the topological structure contained in sketches. In this paper, we introduce DiagramRAG, a lightweight retrieval-augmented framework for sketch-based scientific diagram completion. Given a user sketch, DiagramRAG retrieves reference diagrams that are both semantically relevant to the sketch content and topologically compatible with its structure, and uses them to guide downstream diagram generation. To enable efficient structure-aware retrieval, we represent diagrams as knowledge graphs, synthesize sketch variants at different simplification levels, and train an embedding model to align sketches with compatible diagrams in a shared space. The retrieved references further provide content, topology, and visual priors for completing and rendering the final diagram. Experiments show that DiagramRAG achieves F1-scores of 0.848 and 0.802 on DiagramBank and FigureBench, respectively, and improves generation quality with the best VLM-as-a-Judge score of 7.170, while reducing inference latency to 35.48 seconds per sample. Our code and data are available at https://anonymous.4open.science/r/DiagramRAG-A262 and https://huggingface.co/datasets/anonymous-review-a262/DiagramSketch.
- Abstract(参考訳): 科学図は学術論文における複雑な方法論の伝達に不可欠である。
研究者がそのような図を指定するための自然な方法は、テキストラベル、コネクタ、空間配置が初期の意味論と位相的意図を表現するような粗いスケッチである。
しかし、スケッチは通常不完全であり、出版品質の図を直接作成するには不十分である。
既存のスケッチベースの生成手法は主にスケッチ自体を再構築するが、最近のテキスト駆動図生成フレームワークはテキスト意味論に依存しており、スケッチに含まれるトポロジ構造を完全に活用していない。
本稿では,スケッチに基づく科学図作成のための軽量な検索拡張フレームワークであるDiagramRAGを紹介する。
ユーザスケッチが与えられたら、DiagramRAGはスケッチの内容に意味的に関連し、その構造とトポロジ的に互換性のある参照ダイアグラムを検索し、下流ダイアグラムの生成をガイドする。
効率的な構造認識検索を実現するため、図を知識グラフとして表現し、異なる単純化レベルでスケッチ変種を合成し、埋め込みモデルを訓練して、共有空間における互換性のある図と整合させる。
検索された参照はさらに、最終図の完成とレンダリングのためのコンテンツ、トポロジ、視覚的事前情報を提供する。
実験の結果、DigramRAGはDiagramBankとFinancialBenchでそれぞれ0.848と0.802のF1スコアを獲得し、最高のVLM-as-a-Judgeスコア7.170で生成品質を向上し、推論遅延をサンプルあたり35.48秒に短縮した。
私たちのコードとデータはhttps://anonymous.4open.science/r/DiagramRAG-A262とhttps://huggingface.co/datasets/anonymous-review-a262/DiagramSketchで利用可能です。
関連論文リスト
- DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation [4.248969416909163]
89,422の図からなる大規模データセットであるDiagramBankについて紹介する。
DiagramBankは私たちの自動キュレーションパイプラインを通じて開発され、数字と対応するテキスト内参照を抽出します。
我々はダイアグラムバンクをインデクシング可能な形式でリリースし、ティーザーフィギュアの模範条件による合成を実証するための検索拡張世代を提供する。
論文 参考訳(メタデータ) (2026-02-28T04:17:35Z) - DiagramEval: Evaluating LLM-Generated Diagrams via Graphs [25.040934047462112]
有望な方向性は、SVGとしてテキスト形式で直接デモダイアグラムを生成することである、と我々は主張する。
大規模言語モデルにより生成された実演図の質を評価するために設計された新しい評価指標であるDiagramEvalを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:56:17Z) - SketchAgent: Generating Structured Diagrams from Hand-Drawn Sketches [54.06877048295693]
SketchAgentは手描きスケッチの構造化図への変換を自動化するシステムである。
SketchAgentは、スケッチ認識、シンボリック推論、反復検証を統合し、セマンティックコヒーレントで構造的に正確な図を生成する。
ダイアグラム生成プロセスの合理化によって、SketchAgentはデザイン、教育、エンジニアリングの分野で大きな可能性を秘めています。
論文 参考訳(メタデータ) (2025-08-02T07:22:51Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image
Retrieval [147.24102408745247]
我々は、これまで見過ごされてきたスケッチのさらなる特性、すなわち、詳細レベルの階層性について研究する。
本稿では,スケッチ固有の階層を育成し,それを利用して,対応する階層レベルでのスケッチと写真とのマッチングを行う新しいネットワークを設計する。
論文 参考訳(メタデータ) (2020-07-29T20:50:25Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。