Fugu-MT 論文翻訳(概要): VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations

論文の概要: VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations

arxiv url: http://arxiv.org/abs/2105.06220v1
Date: Thu, 13 May 2021 12:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-14 13:57:55.433374
Title: VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations
Title（参考訳）: VSR:ビジョン,セマンティックス,関係性を組み合わせたドキュメントレイアウト分析のための統一フレームワーク
Authors: Peng Zhang and Can Li and Liang Qiao and Zhanzhan Cheng and Shiliang Pu and Yi Niu and Fei Wu
Abstract要約: 視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
参考スコア（独自算出の注目度）: 40.721146438291335
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Document layout analysis is crucial for understanding document structures. On this task, vision and semantics of documents, and relations between layout components contribute to the understanding process. Though many works have been proposed to exploit the above information, they show unsatisfactory results. NLP-based methods model layout analysis as a sequence labeling task and show insufficient capabilities in layout modeling. CV-based methods model layout analysis as a detection or segmentation task, but bear limitations of inefficient modality fusion and lack of relation modeling between layout components. To address the above limitations, we propose a unified framework VSR for document layout analysis, combining vision, semantics and relations. VSR supports both NLP-based and CV-based methods. Specifically, we first introduce vision through document image and semantics through text embedding maps. Then, modality-specific visual and semantic features are extracted using a two-stream network, which are adaptively fused to make full use of complementary information. Finally, given component candidates, a relation module based on graph neural network is incorported to model relations between components and output final results. On three popular benchmarks, VSR outperforms previous models by large margins. Code will be released soon.
Abstract（参考訳）: 文書構造を理解するには文書レイアウト解析が不可欠である。このタスクでは、ドキュメントのビジョンとセマンティクス、レイアウトコンポーネント間の関係が理解プロセスに寄与します。上記の情報を利用するために多くの研究が提案されているが、不十分な結果を示している。 nlpベースのメソッドシーケンスラベリングタスクとしてモデルレイアウト解析を行い、レイアウトモデリングにおいて不十分な能力を示す。 CV-based method model layout analysis as a detection or segmentation task but bear limit of in efficient modality fusion and lack of relation modeling between layout components。上記の制約に対処するために,視覚,意味論,関係性を組み合わせた文書レイアウト解析のための統合フレームワークVSRを提案する。 VSRはNLPベースの方法とCVベースの方法の両方をサポートしている。具体的には、まず、テキスト埋め込みマップによる文書画像と意味論によるビジョンを紹介する。次に、相補的な情報をフル活用するために適応的に融合された2つのストリームネットワークを用いて、様相特異的な視覚的および意味的特徴を抽出する。最後に、コンポーネント候補が与えられた場合、グラフニューラルネットワークに基づく関係モジュールは、コンポーネント間の関係をモデル化し、最終結果を出力する。 3つの人気のあるベンチマークで、VSRは以前のモデルよりも大きなマージンで性能を上げた。コードはまもなくリリースされる。

関連論文リスト

PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文参考訳（メタデータ） (2026-01-12T15:05:35Z)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
SuperRAG: Beyond RAG with Layout-Aware Graph Modeling [24.242783763410213]
本稿では,マルチモーダルRAGのためのレイアウト対応グラフモデリングを提案する。提案手法は,グラフ構造を用いてマルチモダリティの関係を考慮に入れた。入力文書の構造は、テキストチャンク、テーブル、フィギュアの接続で保持される。
論文参考訳（メタデータ） (2025-02-28T09:05:49Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文参考訳（メタデータ） (2024-05-20T03:34:24Z)
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding [4.258365032282028]
グラフアテンションネットワーク(GAT)と対照的な学習目標を統合することにより、構造化文書理解(DU)に言語に依存しないフレームワークを提案する。本稿では、幾何学的エッジ特徴と視覚的特徴を組み合わせた2段階のGATベースのフレームワークを提案する。この結果から,FUNSDデータセット内の鍵値関係を形式として同定し,RVLCDIPビジネス請求書の表構造レイアウトにおける空間的関係を見出した。
論文参考訳（メタデータ） (2024-05-06T01:40:20Z)
A Semantic Mention Graph Augmented Model for Document-Level Event Argument Extraction [12.286432133599355]
Document-level Event Argument extract (DEAE)は、構造化されていないドキュメントから引数とその特定の役割を特定することを目的としている。 DEAEの先進的なアプローチは、事前訓練された言語モデル(PLM)を誘導するプロンプトベースの手法を用いて、入力文書から引数を抽出する。本稿では,この2つの問題に対処するために,グラフ拡張モデル (GAM) のセマンティック言及を提案する。
論文参考訳（メタデータ） (2024-03-12T08:58:07Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
DocTr: Document Transformer for Structured Information Extraction in Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文参考訳（メタデータ） (2023-07-16T02:59:30Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)
Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。 BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文参考訳（メタデータ） (2020-04-14T02:32:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。