論文の概要: GVdoc: Graph-based Visual Document Classification
- arxiv url: http://arxiv.org/abs/2305.17219v1
- Date: Fri, 26 May 2023 19:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:13:41.950190
- Title: GVdoc: Graph-based Visual Document Classification
- Title(参考訳): GVdoc: グラフベースのビジュアルドキュメント分類
- Authors: Fnu Mohbat, Mohammed J. Zaki, Catherine Finegan-Dollak, Ashish Verma
- Abstract要約: グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 17.350393956461783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The robustness of a model for real-world deployment is decided by how well it
performs on unseen data and distinguishes between in-domain and out-of-domain
samples. Visual document classifiers have shown impressive performance on
in-distribution test sets. However, they tend to have a hard time correctly
classifying and differentiating out-of-distribution examples. Image-based
classifiers lack the text component, whereas multi-modality transformer-based
models face the token serialization problem in visual documents due to their
diverse layouts. They also require a lot of computing power during inference,
making them impractical for many real-world applications. We propose, GVdoc, a
graph-based document classification model that addresses both of these
challenges. Our approach generates a document graph based on its layout, and
then trains a graph neural network to learn node and graph embeddings. Through
experiments, we show that our model, even with fewer parameters, outperforms
state-of-the-art models on out-of-distribution data while retaining comparable
performance on the in-distribution test set.
- Abstract(参考訳): 実世界のデプロイのためのモデルのロバスト性は、見えないデータでどれだけうまく動作し、ドメイン内サンプルとドメイン外サンプルを区別するかによって決定される。
ビジュアル文書分類器は、分散テストセットで素晴らしいパフォーマンスを示している。
しかし、分布の例を正しく分類し、区別するのに苦労する傾向がある。
画像ベースの分類器はテキストコンポーネントを欠いているが、マルチモダリティトランスフォーマティブベースのモデルは、様々なレイアウトのため、視覚的ドキュメントのトークンシリアライズ問題に直面している。
また、推論中に多くのコンピューティングパワーを必要とするため、現実世界のアプリケーションでは実用的ではない。
これらの課題に対処するグラフベースの文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
実験により,本モデルは,パラメータが小さい場合でも,分散テストセットで同等の性能を保ちながら,分散データに対する最先端モデルを上回ることを示した。
関連論文リスト
- Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Text Representation Enrichment Utilizing Graph based Approaches: Stock
Market Technical Analysis Case Study [0.0]
本稿では,教師なしノード表現学習モデルとノード分類/エッジ予測モデルを組み合わせたトランスダクティブハイブリッド手法を提案する。
提案手法は,この分野における最初の研究である株式市場の技術分析報告を分類するために開発された。
論文 参考訳(メタデータ) (2022-11-29T11:26:08Z) - Similarity-aware Positive Instance Sampling for Graph Contrastive
Pre-training [82.68805025636165]
トレーニングセット内の既存グラフから直接正のグラフインスタンスを選択することを提案する。
私たちの選択は、特定のドメイン固有のペアワイズ類似度測定に基づいています。
さらに,ノードを動的にマスキングしてグラフ上に均等に分配する適応ノードレベルの事前学習手法を開発した。
論文 参考訳(メタデータ) (2022-06-23T20:12:51Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。