論文の概要: UniVIE: A Unified Label Space Approach to Visual Information Extraction
from Form-like Documents
- arxiv url: http://arxiv.org/abs/2401.09220v1
- Date: Wed, 17 Jan 2024 14:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:49:40.654292
- Title: UniVIE: A Unified Label Space Approach to Visual Information Extraction
from Form-like Documents
- Title(参考訳): UniVIE:フォーム状文書からの視覚情報抽出のための統一ラベル空間アプローチ
- Authors: Kai Hu, Jiawei Wang, Weihong Lin, Zhuoyao Zhong, Lei Sun, Qiang Huo
- Abstract要約: 我々は,VIEを関係予測問題とみなし,異なるタスクのラベルを単一のラベル空間に統合する新たな視点を提案する。
この統一されたアプローチは、様々な関係型の定義を可能にし、フォームライクなドキュメントにおける階層的関係に効果的に取り組む。
我々は、VIE問題に包括的に対処する統一モデルUniVIEを提案する。
- 参考スコア(独自算出の注目度): 11.761942458294136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for Visual Information Extraction (VIE) from form-like
documents typically fragment the process into separate subtasks, such as key
information extraction, key-value pair extraction, and choice group extraction.
However, these approaches often overlook the hierarchical structure of form
documents, including hierarchical key-value pairs and hierarchical choice
groups. To address these limitations, we present a new perspective, reframing
VIE as a relation prediction problem and unifying labels of different tasks
into a single label space. This unified approach allows for the definition of
various relation types and effectively tackles hierarchical relationships in
form-like documents. In line with this perspective, we present UniVIE, a
unified model that addresses the VIE problem comprehensively. UniVIE functions
using a coarse-to-fine strategy. It initially generates tree proposals through
a tree proposal network, which are subsequently refined into hierarchical trees
by a relation decoder module. To enhance the relation prediction capabilities
of UniVIE, we incorporate two novel tree constraints into the relation decoder:
a tree attention mask and a tree level embedding. Extensive experimental
evaluations on both our in-house dataset HierForms and a publicly available
dataset SIBR, substantiate that our method achieves state-of-the-art results,
underscoring the effectiveness and potential of our unified approach in
advancing the field of VIE.
- Abstract(参考訳): 形式的な文書から既存の視覚情報抽出(VIE)手法は、通常、そのプロセスをキー情報抽出、キー値ペア抽出、選択群抽出など、別々のサブタスクに分割する。
しかし、これらのアプローチは、階層的なキー-値対や階層的な選択群を含む形式文書の階層構造をしばしば見落としている。
これらの制約に対処するため、我々はVIEを関係予測問題とみなし、異なるタスクのラベルを単一のラベル空間に統一する新しい視点を示す。
この統一的なアプローチにより、様々な関係型を定義することができ、形式的文書における階層的関係を効果的に取り扱うことができる。
この観点から、我々は、VIE問題に包括的に対処する統一モデルUniVIEを提案する。
UniVIE は粗い戦略を用いて機能する。
当初はツリー提案ネットワークを通じてツリー提案を生成し、その後リレーショナルデコーダモジュールによって階層木に洗練される。
UniVIEの関係予測能力を高めるために,木面の注意マスクと木面の埋め込みという2つの新しい木制約を関係デコーダに組み込んだ。
社内データセット HierForms と公開データセット SIBR を総合的に評価した結果,本手法が最先端の成果を達成し,VIE の分野を前進させる上での統一的アプローチの有効性と可能性を実証した。
関連論文リスト
- Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification [20.434941308959786]
長い文書分類は、その広範な内容と複雑な構造のために困難を呈する。
既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。
本手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。
論文 参考訳(メタデータ) (2024-10-03T19:25:01Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Tree Variational Autoencoders [5.992683455757179]
本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層的階層クラスタリングモデルを提案する。
TreeVAEは、本質的な特徴に従ってサンプルを階層的に分割し、データ内の隠れた構造に光を遮る。
論文 参考訳(メタデータ) (2023-06-15T09:25:04Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Hierarchical Relationships: A New Perspective to Enhance Scene Graph
Generation [8.28849026314542]
本稿では,ラベル間の階層構造を関係やオブジェクトに活用することにより,シーングラフ生成システムの性能を大幅に向上させることができることを示す。
一対のオブジェクトインスタンス間の関係のスーパーカテゴリを共同で予測するために、ベイズ予測ヘッドを導入する。
Visual Genomeデータセットの実験は、特に述語分類とゼロショット設定において、その強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-13T04:16:42Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction [48.55908127994688]
我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
論文 参考訳(メタデータ) (2021-06-24T12:06:29Z) - Interactive Steering of Hierarchical Clustering [30.371250297444703]
本稿では,公開知識(ウィキペディアなど)とユーザからのプライベート知識の両方を活用することで,制約付き階層的クラスタリングを視覚的に監視するインタラクティブなステアリング手法を提案する。
1)知識(知識駆動)と本質的なデータ分散(データ駆動)を用いて階層的クラスタリングの制約を自動的に構築する。
階層的クラスタリングの結果を明確に伝達するために,不確実性を考慮したツリー可視化が開発され,最も不確実なサブ階層を素早く見つけることができる。
論文 参考訳(メタデータ) (2020-09-21T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。