論文の概要: Deep Learning based Visually Rich Document Content Understanding: A Survey
- arxiv url: http://arxiv.org/abs/2408.01287v1
- Date: Fri, 2 Aug 2024 14:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:17:55.953738
- Title: Deep Learning based Visually Rich Document Content Understanding: A Survey
- Title(参考訳): 深層学習に基づくビジュアルリッチな文書コンテンツ理解:調査
- Authors: Yihao Ding, Jean Lee, Soyeon Caren Han,
- Abstract要約: ビジュアルリッチドキュメント(VRD)は、学術、金融、医療、マーケティングにおいて不可欠である。
ディープラーニングはこのプロセスに革命をもたらし、マルチモーダル情報ビジョン、テキスト、レイアウトを活用するモデルを導入した。
これらのモデルは、様々な下流タスクで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 8.788354139674789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually Rich Documents (VRDs) are essential in academia, finance, medical fields, and marketing due to their multimodal information content. Traditional methods for extracting information from VRDs depend on expert knowledge and manual labor, making them costly and inefficient. The advent of deep learning has revolutionized this process, introducing models that leverage multimodal information vision, text, and layout along with pretraining tasks to develop comprehensive document representations. These models have achieved state-of-the-art performance across various downstream tasks, significantly enhancing the efficiency and accuracy of information extraction from VRDs. In response to the growing demands and rapid developments in Visually Rich Document Understanding (VRDU), this paper provides a comprehensive review of deep learning-based VRDU frameworks. We systematically survey and analyze existing methods and benchmark datasets, categorizing them based on adopted strategies and downstream tasks. Furthermore, we compare different techniques used in VRDU models, focusing on feature representation and fusion, model architecture, and pretraining methods, while highlighting their strengths, limitations, and appropriate scenarios. Finally, we identify emerging trends and challenges in VRDU, offering insights into future research directions and practical applications. This survey aims to provide a thorough understanding of VRDU advancements, benefiting both academic and industrial sectors.
- Abstract(参考訳): ビジュアルリッチドキュメンテーション(VRD)は、学術、金融、医療、マーケティングにおいて必要不可欠である。
VRDから情報を抽出する従来の方法は、専門家の知識と手作業に依存しており、費用がかかり非効率である。
ディープラーニングの出現は、このプロセスに革命をもたらし、マルチモーダルな情報ビジョン、テキスト、レイアウト、および包括的な文書表現を開発するための事前訓練タスクを活用するモデルを導入した。
これらのモデルは、様々な下流タスクにおける最先端のパフォーマンスを達成し、VRDからの情報抽出の効率と精度を大幅に向上させた。
本稿では,Visually Rich Document Understanding (VRDU)における要求の高まりと迅速な開発に対応するため,ディープラーニングベースのVRDUフレームワークの包括的なレビューを行う。
既存の手法とベンチマークデータセットを体系的に調査し分析し、採用戦略と下流タスクに基づいて分類する。
さらに,VRDUモデルで使用されるさまざまなテクニックを比較し,特徴表現と融合,モデルアーキテクチャ,事前学習手法に着目し,その強み,制限,適切なシナリオを強調した。
最後に、VRDUの新たなトレンドと課題を特定し、今後の研究方向や実践的応用に関する洞察を提供する。
本調査は,VRDUの進歩を深く理解し,学術分野と産業分野の両方に利益をもたらすことを目的としている。
関連論文リスト
- Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。
本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文 参考訳(メタデータ) (2024-11-07T22:11:51Z) - Building and better understanding vision-language models: insights and future directions [8.230565679484128]
本稿では,現在最先端の視覚言語モデルへのアプローチについて概観する。
Idefics3-8Bは従来のIdefics2-8Bを大きく上回る強力なVLMです。
トレーニング用に作成されたデータセットとともに、モデルをリリースしています。
論文 参考訳(メタデータ) (2024-08-22T17:47:24Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [33.50873478562128]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。
本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T01:12:42Z) - A Study on the Implementation of Generative AI Services Using an
Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。
この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。
この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文 参考訳(メタデータ) (2023-09-03T07:03:17Z) - A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning [53.35317176453194]
データ拡張(DA)は、サンプル効率と一般化可能なポリシーを取得するために視覚的RLで広く使われている技術である。
本稿では、視覚的RLで使用されている既存の拡張技法の原則的な分類法を提案し、拡張データをどのように活用するかを詳細に議論する。
視覚的RLにおけるDAに関する最初の総合的な調査として、この研究は、この新興分野に貴重なガイダンスを提供するものと期待されている。
論文 参考訳(メタデータ) (2022-10-10T11:01:57Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - Self-Supervised Representation Learning: Introduction, Advances and
Challenges [125.38214493654534]
自己教師付き表現学習手法は、大きな注釈付きデータセットを必要とせずに強力な機能学習を提供することを目的としている。
本稿では、この活気ある領域について、鍵となる概念、アプローチの4つの主要なファミリーと関連する技術の状態、そして、データの多様性に自己監督手法を適用する方法について紹介する。
論文 参考訳(メタデータ) (2021-10-18T13:51:22Z) - Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。
そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。
いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文 参考訳(メタデータ) (2020-07-25T13:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。