Fugu-MT 論文翻訳(概要): GVdoc: Graph-based Visual Document Classification

論文の概要: GVdoc: Graph-based Visual Document Classification

arxiv url: http://arxiv.org/abs/2305.17219v1
Date: Fri, 26 May 2023 19:23:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 21:13:41.950190
Title: GVdoc: Graph-based Visual Document Classification
Title（参考訳）: GVdoc: グラフベースのビジュアルドキュメント分類
Authors: Fnu Mohbat, Mohammed J. Zaki, Catherine Finegan-Dollak, Ashish Verma
Abstract要約: グラフに基づく文書分類モデルであるGVdocを提案する。提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
参考スコア（独自算出の注目度）: 17.350393956461783
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The robustness of a model for real-world deployment is decided by how well it performs on unseen data and distinguishes between in-domain and out-of-domain samples. Visual document classifiers have shown impressive performance on in-distribution test sets. However, they tend to have a hard time correctly classifying and differentiating out-of-distribution examples. Image-based classifiers lack the text component, whereas multi-modality transformer-based models face the token serialization problem in visual documents due to their diverse layouts. They also require a lot of computing power during inference, making them impractical for many real-world applications. We propose, GVdoc, a graph-based document classification model that addresses both of these challenges. Our approach generates a document graph based on its layout, and then trains a graph neural network to learn node and graph embeddings. Through experiments, we show that our model, even with fewer parameters, outperforms state-of-the-art models on out-of-distribution data while retaining comparable performance on the in-distribution test set.
Abstract（参考訳）: 実世界のデプロイのためのモデルのロバスト性は、見えないデータでどれだけうまく動作し、ドメイン内サンプルとドメイン外サンプルを区別するかによって決定される。ビジュアル文書分類器は、分散テストセットで素晴らしいパフォーマンスを示している。しかし、分布の例を正しく分類し、区別するのに苦労する傾向がある。画像ベースの分類器はテキストコンポーネントを欠いているが、マルチモダリティトランスフォーマティブベースのモデルは、様々なレイアウトのため、視覚的ドキュメントのトークンシリアライズ問題に直面している。また、推論中に多くのコンピューティングパワーを必要とするため、現実世界のアプリケーションでは実用的ではない。これらの課題に対処するグラフベースの文書分類モデルであるGVdocを提案する。提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。実験により,本モデルは,パラメータが小さい場合でも,分散テストセットで同等の性能を保ちながら,分散データに対する最先端モデルを上回ることを示した。

関連論文リスト

Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline [6.066442015301665]
高品質な文書画像を生成するための新しい手法を提案する。まず、テキスト作物の比較のための補助的ネットワークをトレーニングし、対照的な学習と、正のペアと対応する負のペアを定義するための新しい戦略を活用する。慎重に設計した生成パイプラインを用いて、多種多様な高品質な文書画像を生成することができるフレームワークを導入する。
論文参考訳（メタデータ） (2026-02-19T12:39:38Z)
Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文参考訳（メタデータ） (2024-10-13T02:22:14Z)
GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-17T23:08:32Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。これらのグラフモデルと従来の協調フィルタリングモデルを比較する。ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文参考訳（メタデータ） (2023-08-01T09:31:44Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
Text Representation Enrichment Utilizing Graph based Approaches: Stock Market Technical Analysis Case Study [0.0]
本稿では,教師なしノード表現学習モデルとノード分類/エッジ予測モデルを組み合わせたトランスダクティブハイブリッド手法を提案する。提案手法は,この分野における最初の研究である株式市場の技術分析報告を分類するために開発された。
論文参考訳（メタデータ） (2022-11-29T11:26:08Z)
Similarity-aware Positive Instance Sampling for Graph Contrastive Pre-training [82.68805025636165]
トレーニングセット内の既存グラフから直接正のグラフインスタンスを選択することを提案する。私たちの選択は、特定のドメイン固有のペアワイズ類似度測定に基づいています。さらに,ノードを動的にマスキングしてグラフ上に均等に分配する適応ノードレベルの事前学習手法を開発した。
論文参考訳（メタデータ） (2022-06-23T20:12:51Z)
A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文参考訳（メタデータ） (2022-06-17T08:32:43Z)
Test-Time Adaptation for Visual Document Understanding [34.79168501080629]
DocTTAは文書に対する新しいテスト時間適応手法である。未ラベルのターゲット文書データを使用して、ソースフリーのドメイン適応を行う。各種のVDUタスクに対して,既存の公開データセットを用いた新しいベンチマークを導入する。
論文参考訳（メタデータ） (2022-06-15T01:57:12Z)
Temporal Graph Network Embedding with Causal Anonymous Walks Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文参考訳（メタデータ） (2021-08-19T15:39:52Z)
Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文参考訳（メタデータ） (2020-10-23T21:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。