論文の概要: SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement
- arxiv url: http://arxiv.org/abs/2409.19242v2
- Date: Tue, 15 Oct 2024 22:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:18:22.601202
- Title: SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement
- Title(参考訳): SciDoc2Diagrammer-MAF:マルチアスペクトフィードバックリファインメントによる文書からの科学的ダイアグラムの生成に向けて
- Authors: Ishani Mondal, Zongxia Li, Yufang Hou, Anandhavelu Natarajan, Aparna Garimella, Jordan Boyd-Graber,
- Abstract要約: 本稿では,学術論文から関連情報を抽出し,図を生成するSciDoc2Diagramを提案する。
中間コード生成を用いたユーザ意図に基づく図を生成するパイプラインSciDoc2Diagrammerを開発した。
- 参考スコア(独自算出の注目度): 22.07623299712134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the creation of scientific diagrams from academic papers can significantly streamline the development of tutorials, presentations, and posters, thereby saving time and accelerating the process. Current text-to-image models struggle with generating accurate and visually appealing diagrams from long-context inputs. We propose SciDoc2Diagram, a task that extracts relevant information from scientific papers and generates diagrams, along with a benchmarking dataset, SciDoc2DiagramBench. We develop a multi-step pipeline SciDoc2Diagrammer that generates diagrams based on user intentions using intermediate code generation. We observed that initial diagram drafts were often incomplete or unfaithful to the source, leading us to develop SciDoc2Diagrammer-Multi-Aspect-Feedback (MAF), a refinement strategy that significantly enhances factual correctness and visual appeal and outperforms existing models on both automatic and human judgement.
- Abstract(参考訳): 学術論文から科学図を作成することを自動化することは、チュートリアル、プレゼンテーション、ポスターの開発を大幅に効率化し、時間を節約し、プロセスを加速させることができる。
現在のテキスト・ツー・イメージモデルは、長いコンテキスト入力から正確で視覚的に魅力的な図を生成するのに苦労している。
本稿では,SciDoc2Diagramを提案する。SciDoc2DiagramBenchとともに,学術論文から関連情報を抽出し,図を生成するタスクである。
中間コード生成を用いたユーザ意図に基づいたダイアグラムを生成するマルチステップパイプラインSciDoc2Diagrammerを開発した。
我々は,初期図の草案が情報源に不完全あるいは不完全であることから,事実の正しさと視覚的魅力を著しく向上し,既存モデルを自動判断と人的判断の両方で優れる改良戦略であるSciDoc2Diagrammer-Multi-Aspect-Feedback(MAF)を開発した。
関連論文リスト
- GRAG: Graph Retrieval-Augmented Generation [14.98084919101233]
Graph Retrieval-Augmented Generation (GRAG)は、テキストサブグラフを取得する際の根本的な課題に取り組む。
本稿では,線形時間で最適な部分グラフ構造を検索する新たな分割・対数戦略を提案する。
提案手法は現状のRAG法を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-26T10:11:40Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - DocGraphLM: Documental Graph Language Model for Information Extraction [15.649726614383388]
本稿では,事前学習した言語モデルとグラフセマンティクスを組み合わせたフレームワークDocGraphLMを紹介する。
これを実現するために,1)文書を表す共同エンコーダアーキテクチャを提案し,2)文書グラフを再構築するための新しいリンク予測手法を提案する。
3つのSotAデータセットに対する実験により、IEおよびQAタスクにおける一貫した改善とグラフ機能の導入が示された。
論文 参考訳(メタデータ) (2024-01-05T14:15:36Z) - mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large
Language Model [73.38800189095173]
本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。
高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。
M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
論文 参考訳(メタデータ) (2023-11-30T04:43:26Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Multi-Document Scientific Summarization from a Knowledge Graph-Centric
View [9.579482432715261]
符号化処理と復号処理の両方において知識グラフを中心としたMDSSモデルであるKGSumを提案する。
具体的には、2つのグラフベースのモジュールが、知識グラフ情報を紙のエンコーディングに組み込むように提案されている。
復号処理では,まず要約の知識グラフ情報を記述文形式で生成し,次に最終要約を生成する2段復号器を提案する。
論文 参考訳(メタデータ) (2022-09-09T14:20:59Z) - Structural Information Preserving for Graph-to-Text Generation [59.00642847499138]
グラフ・トゥ・テキスト生成の課題は、入力グラフの意味を保存した文を生成することである。
入力情報を保存するためのモデルとして,より豊かなトレーニング信号を活用することで,この問題に取り組むことを提案する。
グラフからテキストへの生成のための2つのベンチマークに関する実験は、最先端のベースラインに対するアプローチの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:01Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。