論文の概要: S2Doc -- Spatial-Semantic Document Format
- arxiv url: http://arxiv.org/abs/2511.01113v1
- Date: Sun, 02 Nov 2025 23:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.070052
- Title: S2Doc -- Spatial-Semantic Document Format
- Title(参考訳): S2Doc -- 空間意味ドキュメントフォーマット
- Authors: Sebastian Kempf, Frank Puppe,
- Abstract要約: S2Docは、ドキュメントとテーブルを単一のフォーマットでモデリングするための柔軟なデータ構造である。
マルチページドキュメントを含む、ドキュメントやテーブルのほとんどのモデリングアプローチをサポートする。
- 参考スコア(独自算出の注目度): 0.22917707112773592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Documents are a common way to store and share information, with tables being an important part of many documents. However, there is no real common understanding of how to model documents and tables in particular. Because of this lack of standardization, most scientific approaches have their own way of modeling documents and tables, leading to a variety of different data structures and formats that are not directly compatible. Furthermore, most data models focus on either the spatial or the semantic structure of a document, neglecting the other aspect. To address this, we developed S2Doc, a flexible data structure for modeling documents and tables that combines both spatial and semantic information in a single format. It is designed to be easily extendable to new tasks and supports most modeling approaches for documents and tables, including multi-page documents. To the best of our knowledge, it is the first approach of its kind to combine all these aspects in a single format.
- Abstract(参考訳): ドキュメントは情報を保存し共有するための一般的な方法であり、テーブルは多くのドキュメントの重要な部分である。
しかし、特に文書やテーブルをモデル化する方法に関する一般的な理解は存在しない。
このような標準化の欠如により、ほとんどの科学的アプローチは、文書やテーブルをモデリングする独自の方法を持ち、直接互換性のないさまざまなデータ構造やフォーマットを生み出します。
さらに、ほとんどのデータモデルは、ドキュメントの空間的または意味的な構造に焦点を合わせ、他の側面を無視します。
そこで我々はS2Docを開発した。S2Docは文書やテーブルをモデリングするための柔軟なデータ構造で、空間情報と意味情報を1つのフォーマットで組み合わせる。
新しいタスクに容易に拡張でき、マルチページドキュメントを含むドキュメントやテーブルのほとんどのモデリングアプローチをサポートするように設計されている。
私たちの知る限りでは、これらすべての側面を単一のフォーマットで組み合わせるのは、この種の最初のアプローチです。
関連論文リスト
- Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models [11.959445364035734]
エンタープライズデータの80%は非構造化ファイルに格納され、不均一なフォーマットに対応するデータレイクに格納される。
多様な異種文書からマルチモーダル情報を抽出する新しいフレームワークであるDocs2KGを紹介する。
Docs2KGは、抽出されたキー情報を表す統一知識グラフを生成する。
論文 参考訳(メタデータ) (2024-06-05T05:35:59Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Spatial Dependency Parsing for Semi-Structured Document Information
Extraction [29.231908055394808]
本研究では,文書内の複雑な関係と任意の数の情報層をエンドツーエンドにモデル化するSPADE(SPA Dependency)を提案する。
我々はレシート、名刺、フォーム、請求書など、さまざまな種類の文書で評価する。
論文 参考訳(メタデータ) (2020-05-01T22:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。