論文の概要: GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation
- arxiv url: http://arxiv.org/abs/2402.11401v2
- Date: Tue, 20 Feb 2024 18:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:02:37.815833
- Title: GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation
- Title(参考訳): GraphKD:構造化グラフ作成による文書オブジェクト検出に向けた知識蒸留の探索
- Authors: Ayan Banerjee, Sanket Biswas, Josep Llad\'os, and Umapada Pal
- Abstract要約: ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.511401955827875
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Object detection in documents is a key step to automate the structural
elements identification process in a digital or scanned document through
understanding the hierarchical structure and relationships between different
elements. Large and complex models, while achieving high accuracy, can be
computationally expensive and memory-intensive, making them impractical for
deployment on resource constrained devices. Knowledge distillation allows us to
create small and more efficient models that retain much of the performance of
their larger counterparts. Here we present a graph-based knowledge distillation
framework to correctly identify and localize the document objects in a document
image. Here, we design a structured graph with nodes containing proposal-level
features and edges representing the relationship between the different proposal
regions. Also, to reduce text bias an adaptive node sampling strategy is
designed to prune the weight distribution and put more weightage on non-text
nodes. We encode the complete graph as a knowledge representation and transfer
it from the teacher to the student through the proposed distillation loss by
effectively capturing both local and global information concurrently. Extensive
experimentation on competitive benchmarks demonstrates that the proposed
framework outperforms the current state-of-the-art approaches. The code will be
available at: https://github.com/ayanban011/GraphKD.
- Abstract(参考訳): 文書中のオブジェクト検出は、階層構造と異なる要素間の関係を理解することによって、デジタル文書やスキャン文書の構造要素識別プロセスを自動化するための重要なステップである。
大規模で複雑なモデルは高い精度を達成する一方で、計算コストが高く、メモリ集約的であり、リソース制約のあるデバイスへのデプロイには実用的ではない。
知識蒸留により、より大型の蒸留器の性能の多くを保持する小型で効率的なモデルが作成できる。
本稿では,ドキュメント画像内の文書オブジェクトを正しく識別し,局所化するグラフベースの知識蒸留フレームワークを提案する。
本稿では,提案領域間の関係を表すエッジと提案レベルの特徴を含むノードを持つ構造化グラフを設計する。
また、テキストバイアスを減らすために、適応ノードサンプリング戦略は、重み分布を損ね、非テキストノードの重み付けを増やすように設計されている。
本論文では,全グラフを知識表現としてエンコードし,ローカル情報とグローバル情報の両方を同時取得することにより,提案する蒸留損失を通じて教師から生徒に伝達する。
競合ベンチマークに関する広範な実験は、提案されたフレームワークが現在の最先端のアプローチを上回っていることを示している。
コードは以下の通り。 https://github.com/ayanban011/GraphKD。
関連論文リスト
- Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。
既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。
本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文 参考訳(メタデータ) (2024-10-03T19:25:01Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding [51.75091298017941]
本稿では,属性付きグラフデータに対する新しいDeep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE)を提案する。
提案手法は,最先端のベースラインアルゴリズムを,一般的なデータセット間でのダウンストリームタスクの差を大きく越える。
論文 参考訳(メタデータ) (2024-01-12T17:57:07Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Document-level Relation Extraction with Cross-sentence Reasoning Graph [14.106582119686635]
関係抽出(RE)は、最近、文レベルから文書レベルに移行した。
GRaph情報集約・クロスセンス推論ネットワーク(GRACR)を用いた新しい文書レベルのREモデルを提案する。
実験結果から,GRACRは文書レベルのREの2つの公開データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-03-07T14:14:12Z) - FactGraph: Evaluating Factuality in Summarization with Semantic Graph
Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。
MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。
事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文 参考訳(メタデータ) (2022-04-13T16:45:33Z) - A Multi-purposed Unsupervised Framework for Comparing Embeddings of
Undirected and Directed Graphs [0.0]
筆者らが最近導入したグラフ埋め込み評価フレームワークを拡張した。
適切な埋め込みは、基礎となるグラフトポロジと構造、ノード間関係、その他の関連する情報をキャプチャする必要がある。
フレームワークは柔軟でスケーラブルで、非指向/指向/重み付き/非重み付きグラフを扱うことができる。
論文 参考訳(メタデータ) (2021-11-30T20:20:30Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Coarse-to-Fine Entity Representations for Document-level Relation
Extraction [28.39444850200523]
文書レベルの関係抽出(RE: Document-level Relation extract)は、文内および文間で表現される関係を抽出する必要がある。
最近の研究は、通常文書レベルの相互作用をキャプチャする文書レベルのグラフを構築するグラフベースの手法が有用なエンティティ表現を得ることができることを示している。
粗大な戦略を採用する textbfCoarse-to-textbfFine textbfEntity textbfRepresentation model (textbfCFER) を提案する。
論文 参考訳(メタデータ) (2020-12-04T10:18:59Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。