論文の概要: Using Neighborhood Context to Improve Information Extraction from Visual
Documents Captured on Mobile Phones
- arxiv url: http://arxiv.org/abs/2108.10395v1
- Date: Mon, 23 Aug 2021 20:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:09:13.737633
- Title: Using Neighborhood Context to Improve Information Extraction from Visual
Documents Captured on Mobile Phones
- Title(参考訳): 周辺環境を利用した携帯電話上での視覚文書からの情報抽出
- Authors: Kalpa Gunaratna, Vijay Srinivasan, Sandeep Nama, Hongxia Jin
- Abstract要約: 隣り合う情報抽出は、最先端のグローバルコンテキストベースのIE技術より優れています。
モバイルプラットフォーム上でのNIEのオンデバイス実装は,実世界の実用化におけるNIEの有用性を示すものである。
- 参考スコア(独自算出の注目度): 35.71217751321033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information Extraction from visual documents enables convenient and
intelligent assistance to end users. We present a Neighborhood-based
Information Extraction (NIE) approach that uses contextual language models and
pays attention to the local neighborhood context in the visual documents to
improve information extraction accuracy. We collect two different visual
document datasets and show that our approach outperforms the state-of-the-art
global context-based IE technique. In fact, NIE outperforms existing approaches
in both small and large model sizes. Our on-device implementation of NIE on a
mobile platform that generally requires small models showcases NIE's usefulness
in practical real-world applications.
- Abstract(参考訳): ビジュアルドキュメントからの情報抽出は、エンドユーザにとって便利でインテリジェントな支援を可能にする。
本研究では, 周辺言語モデルを用いて, 視覚文書の局所的コンテキストに注意を払い, 情報抽出精度を向上させる, 近隣情報抽出(NIE)アプローチを提案する。
我々は2つの異なるビジュアルドキュメントデータセットを収集し、我々のアプローチが最先端のグローバルなコンテキストベースIE技術より優れていることを示す。
実際、NIEは、小型と大型のモデルサイズの両方で既存のアプローチより優れている。
通常、小型モデルを必要とするモバイルプラットフォーム上でのNIEのオンデバイス実装は、実世界の実用的なアプリケーションにおけるNIEの有用性を示している。
関連論文リスト
- VERA: Generating Visual Explanations of Two-Dimensional Embeddings via Region Annotation [0.0]
Visual Explanations via Region (VERA) は2次元埋め込みの視覚的説明を生成する自動埋め込みアノテーション手法である。
VERAは、埋め込み空間内の異なる領域を特徴付ける情報的説明を生成し、ユーザがその埋め込み風景を一目で概観することができる。
実世界のデータセット上でのVERAの利用について説明するとともに,本手法の有効性を比較ユーザスタディで検証する。
論文 参考訳(メタデータ) (2024-06-07T10:23:03Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Bridging the visual gap in VLN via semantically richer instructions [3.5789352263336847]
現状のモデルでは、限られた、あるいは全く視覚的データを受け取らない場合、深刻な影響を受けないことが示される。
より明示的な視覚情報の導入を促進する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:58:07Z) - Reference Resolution and Context Change in Multimodal Situated Dialogue
for Exploring Data Visualizations [3.5813777917429515]
マルチモーダル対話における大画面ディスプレイ上での可視化への参照の解決に焦点をあてる。
言語と手振りで大画面に表示される視覚化へのユーザ参照に関するアノテーションについて述べる。
本稿では,参照の検出と解決,モデル上でのコンテキスト情報の有効性,視覚化のための不特定要求について報告する。
論文 参考訳(メタデータ) (2022-09-06T04:43:28Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。