Fugu-MT 論文翻訳(概要): GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation

論文の概要: GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation

arxiv url: http://arxiv.org/abs/2402.11401v1
Date: Sat, 17 Feb 2024 23:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:34:47.815597
Title: GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation
Title（参考訳）: GraphKD:構造化グラフ作成による文書オブジェクト検出に向けた知識蒸留の探索
Authors: Ayan Banerjee, Sanket Biswas, Josep Llad\'os, and Umapada Pal
Abstract要約: ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
参考スコア（独自算出の注目度）: 14.511401955827875
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Object detection in documents is a key step to automate the structural elements identification process in a digital or scanned document through understanding the hierarchical structure and relationships between different elements. Large and complex models, while achieving high accuracy, can be computationally expensive and memory-intensive, making them impractical for deployment on resource constrained devices. Knowledge distillation allows us to create small and more efficient models that retain much of the performance of their larger counterparts. Here we present a graph-based knowledge distillation framework to correctly identify and localize the document objects in a document image. Here, we design a structured graph with nodes containing proposal-level features and edges representing the relationship between the different proposal regions. Also, to reduce text bias an adaptive node sampling strategy is designed to prune the weight distribution and put more weightage on non-text nodes. We encode the complete graph as a knowledge representation and transfer it from the teacher to the student through the proposed distillation loss by effectively capturing both local and global information concurrently. Extensive experimentation on competitive benchmarks demonstrates that the proposed framework outperforms the current state-of-the-art approaches. The code will be available at: https://github.com/ayanban011/GraphKD.
Abstract（参考訳）: 文書中のオブジェクト検出は、階層構造と異なる要素間の関係を理解することによって、デジタル文書やスキャン文書の構造要素識別プロセスを自動化するための重要なステップである。大規模で複雑なモデルは高い精度を達成する一方で、計算コストが高く、メモリ集約的であり、リソース制約のあるデバイスへのデプロイには実用的ではない。知識蒸留により、より大型の蒸留器の性能の多くを保持する小型で効率的なモデルが作成できる。本稿では,ドキュメント画像内の文書オブジェクトを正しく識別し,局所化するグラフベースの知識蒸留フレームワークを提案する。本稿では,提案領域間の関係を表すエッジと提案レベルの特徴を含むノードを持つ構造化グラフを設計する。また、テキストバイアスを減らすために、適応ノードサンプリング戦略は、重み分布を損ね、非テキストノードの重み付けを増やすように設計されている。本論文では,全グラフを知識表現としてエンコードし,ローカル情報とグローバル情報の両方を同時取得することにより,提案する蒸留損失を通じて教師から生徒に伝達する。競合ベンチマークに関する広範な実験は、提案されたフレームワークが現在の最先端のアプローチを上回っていることを示している。コードは以下の通り。 https://github.com/ayanban011/GraphKD。

関連論文リスト

Graph-Anchored Knowledge Indexing for Retrieval-Augmented Generation [53.42323544075114]
グラフアンコール型知識インデックス手法であるGraphAnchorを提案する。 4つのマルチホップ質問応答ベンチマークの実験では、GraphAnchorの有効性が示されている。
論文参考訳（メタデータ） (2026-01-23T05:41:05Z)
An Effective Approach for Node Classification in Textual Graphs [0.5062312533373298]
本稿では,TAPE(Text-Attributed Graph Representation Enhancement)とGraphormerを統合する新しいフレームワークを提案する。提案手法は,論文の内容から意味的に豊かな説明を生成し,それを拡張ノード表現に融合させる。我々は,本フレームワークの課題であるogbn-arxivデータセットに対する有効性を示し,分類精度0.772で最先端性能を実現した。
論文参考訳（メタデータ） (2025-08-07T20:24:00Z)
Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts [0.8245350546263803]
グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
論文参考訳（メタデータ） (2024-11-27T21:15:02Z)
Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文参考訳（メタデータ） (2024-10-03T19:25:01Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
Deep Manifold Graph Auto-Encoder for Attributed Graph Embedding [51.75091298017941]
本稿では,属性付きグラフデータに対する新しいDeep Manifold (Variational) Graph Auto-Encoder (DMVGAE/DMGAE)を提案する。提案手法は,最先端のベースラインアルゴリズムを,一般的なデータセット間でのダウンストリームタスクの差を大きく越える。
論文参考訳（メタデータ） (2024-01-12T17:57:07Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
Document-level Relation Extraction with Cross-sentence Reasoning Graph [14.106582119686635]
関係抽出(RE)は、最近、文レベルから文書レベルに移行した。 GRaph情報集約・クロスセンス推論ネットワーク(GRACR)を用いた新しい文書レベルのREモデルを提案する。実験結果から,GRACRは文書レベルのREの2つの公開データセットにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2023-03-07T14:14:12Z)
FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations [114.94628499698096]
文書と要約を構造化された意味表現(MR)に分解するFactGraphを提案する。 MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。
論文参考訳（メタデータ） (2022-04-13T16:45:33Z)
A Multi-purposed Unsupervised Framework for Comparing Embeddings of Undirected and Directed Graphs [0.0]
筆者らが最近導入したグラフ埋め込み評価フレームワークを拡張した。適切な埋め込みは、基礎となるグラフトポロジと構造、ノード間関係、その他の関連する情報をキャプチャする必要がある。フレームワークは柔軟でスケーラブルで、非指向/指向/重み付き/非重み付きグラフを扱うことができる。
論文参考訳（メタデータ） (2021-11-30T20:20:30Z)
Self-supervised Graph-level Representation Learning with Local and Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。 GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文参考訳（メタデータ） (2021-06-08T05:25:38Z)
Coarse-to-Fine Entity Representations for Document-level Relation Extraction [28.39444850200523]
文書レベルの関係抽出(RE: Document-level Relation extract)は、文内および文間で表現される関係を抽出する必要がある。最近の研究は、通常文書レベルの相互作用をキャプチャする文書レベルのグラフを構築するグラフベースの手法が有用なエンティティ表現を得ることができることを示している。粗大な戦略を採用する textbfCoarse-to-textbfFine textbfEntity textbfRepresentation model (textbfCFER) を提案する。
論文参考訳（メタデータ） (2020-12-04T10:18:59Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。