論文の概要: Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents
- arxiv url: http://arxiv.org/abs/2403.15765v1
- Date: Sat, 23 Mar 2024 08:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:12:36.451592
- Title: Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents
- Title(参考訳): ヒューマンライクな機械理解を目指して--ビジュアルリッチ文書におけるFew-Shotリレーショナルラーニング
- Authors: Hao Wang, Tang Li, Chenhui Chu, Nengjun Zhu, Rui Wang, Pinpin Zhu,
- Abstract要約: Visually-Rich Documents (VRDs) ではキーバリュー関係が一般的である
これらの非テクスト的手がかりは、人間の理解とそのような関係三重項の獲得を大幅に促進する重要な指標となる。
本研究は,VRDにおけるキー-値関係三重項の抽出を目的とした,数発のリレーショナル学習に焦点を当てた。
- 参考スコア(独自算出の注目度): 16.78371134590167
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Key-value relations are prevalent in Visually-Rich Documents (VRDs), often depicted in distinct spatial regions accompanied by specific color and font styles. These non-textual cues serve as important indicators that greatly enhance human comprehension and acquisition of such relation triplets. However, current document AI approaches often fail to consider this valuable prior information related to visual and spatial features, resulting in suboptimal performance, particularly when dealing with limited examples. To address this limitation, our research focuses on few-shot relational learning, specifically targeting the extraction of key-value relation triplets in VRDs. Given the absence of a suitable dataset for this task, we introduce two new few-shot benchmarks built upon existing supervised benchmark datasets. Furthermore, we propose a variational approach that incorporates relational 2D-spatial priors and prototypical rectification techniques. This approach aims to generate relation representations that are more aware of the spatial context and unseen relation in a manner similar to human perception. Experimental results demonstrate the effectiveness of our proposed method by showcasing its ability to outperform existing methods. This study also opens up new possibilities for practical applications.
- Abstract(参考訳): キーバリュー関係は、視覚的リッチ文書(VRD)でよく見られ、しばしば特定の色やフォントスタイルを伴って異なる空間領域で表現される。
これらの非テクスト的手がかりは、人間の理解とそのような関係三重項の獲得を大幅に促進する重要な指標となる。
しかし、現在のドキュメントAIアプローチでは、視覚的特徴や空間的特徴に関連するこの貴重な事前情報を考慮することができず、特に限られた例を扱う場合、最適以下のパフォーマンスをもたらす。
この制限に対処するため,本研究では,VRDにおけるキー値関係三重項の抽出を対象とする,数発のリレーショナル学習に焦点を当てた。
このタスクに適したデータセットがないため、既存の教師付きベンチマークデータセット上に構築された2つの新しい数ショットベンチマークを導入する。
さらに,リレーショナル2次元空間先行法と原型補正手法を取り入れた変分法を提案する。
この手法は,人間の知覚に類似した方法で,空間的文脈や見えない関係をより意識した関係表現を生成することを目的としている。
実験により,提案手法が既存手法より優れていることを示すことにより,提案手法の有効性を実証した。
また,本研究は,実用化に向けた新たな可能性も開けている。
関連論文リスト
- RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Cross-Domain Few-Shot Relation Extraction via Representation Learning
and Domain Adaptation [1.1602089225841632]
短いショット関係抽出は、各関係にラベル付き文がほとんどない新しい関係を認識することを目的としている。
従来の距離法に基づく数ショット関係抽出アルゴリズムは、訓練された距離関数を用いて、クエリ文の埋め込みに埋め込まれた少数のラベル付き文によって生成されたプロトタイプを比較することにより、関係を識別する。
我々は,先行知識からより解釈可能で効率的なプロトタイプを学習し,様々な領域における新たな関係をより効果的に抽出するために,関係の本質的な意味論を学習することを提案する。
論文 参考訳(メタデータ) (2022-12-05T19:34:52Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z) - One-shot Learning for Temporal Knowledge Graphs [49.41854171118697]
時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。
提案手法は,実体間の時間的相互作用を効果的に符号化する自己認識機構を用いる。
実験の結果,提案アルゴリズムは2つのよく研究されたベンチマークにおいて,アートベースラインの状態よりも優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:24:44Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。