Fugu-MT 論文翻訳(概要): A Graphical Approach to Document Layout Analysis

論文の概要: A Graphical Approach to Document Layout Analysis

arxiv url: http://arxiv.org/abs/2308.02051v1
Date: Thu, 3 Aug 2023 21:09:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-07 14:32:29.695025
Title: A Graphical Approach to Document Layout Analysis
Title（参考訳）: 文書レイアウト解析へのグラフ的アプローチ
Authors: Jilin Wang, Michael Krumdick, Baojia Tong, Hamima Halim, Maxim Sokolov, Vadym Barda, Delphine Vendryes, and Chris Tanner
Abstract要約: 文書レイアウト分析 (Document layout analysis, DLA) は、文書内の別個の意味的内容を検出するタスクである。既存の最先端(SOTA)のDLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。本稿では,グラフベースレイアウト解析モデル(GLAM)を紹介する。
参考スコア（独自算出の注目度）: 2.5108258530670606
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Document layout analysis (DLA) is the task of detecting the distinct, semantic content within a document and correctly classifying these items into an appropriate category (e.g., text, title, figure). DLA pipelines enable users to convert documents into structured machine-readable formats that can then be used for many useful downstream tasks. Most existing state-of-the-art (SOTA) DLA models represent documents as images, discarding the rich metadata available in electronically generated PDFs. Directly leveraging this metadata, we represent each PDF page as a structured graph and frame the DLA problem as a graph segmentation and classification problem. We introduce the Graph-based Layout Analysis Model (GLAM), a lightweight graph neural network competitive with SOTA models on two challenging DLA datasets - while being an order of magnitude smaller than existing models. In particular, the 4-million parameter GLAM model outperforms the leading 140M+ parameter computer vision-based model on 5 of the 11 classes on the DocLayNet dataset. A simple ensemble of these two models achieves a new state-of-the-art on DocLayNet, increasing mAP from 76.8 to 80.8. Overall, GLAM is over 5 times more efficient than SOTA models, making GLAM a favorable engineering choice for DLA tasks.
Abstract（参考訳）: 文書レイアウト分析(DLA、Document layout analysis)は、文書内の別個の意味的内容を検出し、これらの項目を適切なカテゴリ(テキスト、タイトル、図形など)に正しく分類するタスクである。 DLAパイプラインでは、ドキュメントを構造化された機械可読フォーマットに変換して、多くの有用な下流タスクに使用することができる。既存の最先端(SOTA)DLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。このメタデータを直接利用して、各PDFページを構造化グラフとして表現し、DLA問題をグラフセグメンテーションと分類問題としてフレーム化する。本稿では,2つのdlaデータセット上でsomaモデルと競合する軽量グラフニューラルネットワークであるglam(graph-based layout analysis model)について紹介する。特に、400万のパラメータGLAMモデルは、DocLayNetデータセット上の11クラスの5つの主要な140M以上のパラメータコンピュータビジョンベースモデルよりも優れています。これら2つのモデルの単純なアンサンブルはDocLayNetの新しい最先端を実現し、mAPは76.8から80.8に増加した。全体的に、GLAMはSOTAモデルより5倍効率が良いため、DLAタスクにおいてGLAMが好ましいエンジニアリング選択となる。

関連論文リスト

In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文参考訳（メタデータ） (2025-07-18T18:15:09Z)
BRIDGES: Bridging Graph Modality and Large Language Models within EDA Tasks [12.683482535955314]
LLMのパフォーマンスは、グラフがシーケンシャルテキストとして表現されるときに悩む。 EDAタスクのための LLM にグラフモダリティを組み込むためのフレームワークBRIDGES を紹介する。その結果、テキストのみのベースラインに比べて、複数のタスクで2倍から10倍の改善が見られた。
論文参考訳（メタデータ） (2025-04-07T15:27:32Z)
Graphy'our Data: Towards End-to-End Modeling, Exploring and Generating Report from Raw Data [5.752510084651565]
Graphyは、データモデリング、探索、高品質なレポート生成を自動化するエンドツーエンドプラットフォームである。文献調査のシナリオをどのように促進するかを示す,5万を越える論文(参考資料を含む)の事前スクラップグラフを紹介します。
論文参考訳（メタデータ） (2025-02-24T06:10:49Z)
Graph-based Document Structure Analysis [26.79096546002763]
本稿では,新しいグラフベース文書構造解析(gDSA)タスクを提案する。このタスクでは、モデルが文書要素を検出するだけでなく、グラフ構造の形で空間的および論理的関係を生成する必要がある。関係グラフに基づく文書構造解析データセット(GraphDoc)を80Kの文書画像と4.13Mの関連アノテーションで構築する。
論文参考訳（メタデータ） (2025-02-04T17:16:14Z)
An Automatic Graph Construction Framework based on Large Language Models for Recommendation [49.51799417575638]
本稿では,大規模言語モデルに基づく自動グラフ構築フレームワークであるAutoGraphを紹介する。 LLMはユーザ好みとアイテムの知識を推論し、セマンティックベクターとして符号化する。潜在因子は、ユーザ/イテムノードをリンクする余分なノードとして組み込まれ、結果として、深いグローバルビューセマンティクスを持つグラフとなる。
論文参考訳（メタデータ） (2024-12-24T07:51:29Z)
Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文参考訳（メタデータ） (2024-10-13T02:22:14Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文参考訳（メタデータ） (2024-09-29T11:38:45Z)
Large Generative Graph Models [74.58859158271169]
大規模グラフ生成モデル(LGGM)と呼ばれる新しいグラフ生成モデルを提案する。事前訓練されたLGGMは、既存のグラフ生成モデルよりもゼロショット生成能力が優れている。 LGGMは、ターゲットドメインからのグラフで簡単に微調整でき、スクラッチから直接トレーニングされたグラフよりも、さらに優れたパフォーマンスを示すことができる。
論文参考訳（メタデータ） (2024-06-07T17:41:47Z)
LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文参考訳（メタデータ） (2024-02-13T02:03:26Z)
Vision Grid Transformer for Document Layout Analysis [26.62857594455592]
本稿では、2Dトークンレベルおよびセグメントレベルのセマンティック理解のために、Grid Transformer (GiT) が提案され、事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。実験結果から,提案したVGTモデルにより,文書レイアウト解析タスクにおける新たな最先端結果が得られることが示された。
論文参考訳（メタデータ） (2023-08-29T02:09:56Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T19:23:20Z)
Text Representation Enrichment Utilizing Graph based Approaches: Stock Market Technical Analysis Case Study [0.0]
本稿では,教師なしノード表現学習モデルとノード分類/エッジ予測モデルを組み合わせたトランスダクティブハイブリッド手法を提案する。提案手法は,この分野における最初の研究である株式市場の技術分析報告を分類するために開発された。
論文参考訳（メタデータ） (2022-11-29T11:26:08Z)
DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。 textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文参考訳（メタデータ） (2022-06-02T14:25:12Z)
Document Layout Analysis via Dynamic Residual Feature Fusion [10.670880187577778]
文書レイアウト分析(DLA)は、文書イメージを異なる関心領域に分割し、各領域の役割を理解することを目的としている。トレーニングデータは非常に限られており、効率的なモデルがないため、DLAシステムを構築するのは困難です。 DLAタスクに対して,DRFN(Dynamic Residual Fusion Network)と呼ばれるエンドツーエンドの統合ネットワークを提案する。
論文参考訳（メタデータ） (2021-04-07T02:57:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。