Fugu-MT 論文翻訳(概要): Deep Learning based Visually Rich Document Content Understanding: A Survey

論文の概要: Deep Learning based Visually Rich Document Content Understanding: A Survey

arxiv url: http://arxiv.org/abs/2408.01287v2
Date: Fri, 20 Jun 2025 10:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.691753
Title: Deep Learning based Visually Rich Document Content Understanding: A Survey
Title（参考訳）: 深層学習に基づくビジュアルリッチな文書コンテンツ理解:調査
Authors: Yihao Ding, Soyeon Caren Han, Jean Lee, Eduard Hovy,
Abstract要約: ビジュアルリッチドキュメント(VRD)は、学術、金融、医療、マーケティングといった分野において重要な役割を担っている。 VRDから情報を抽出する従来のアプローチは、専門家の知識と手動のアノテーションに大きく依存している。近年のディープラーニングの進歩は、事前学習を通じて視覚、言語、レイアウト機能を統合するマルチモーダルモデルを実現することで、この状況を変えている。
参考スコア（独自算出の注目度）: 10.746453741520826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visually Rich Documents (VRDs) play a vital role in domains such as academia, finance, healthcare, and marketing, as they convey information through a combination of text, layout, and visual elements. Traditional approaches to extracting information from VRDs rely heavily on expert knowledge and manual annotation, making them labor-intensive and inefficient. Recent advances in deep learning have transformed this landscape by enabling multimodal models that integrate vision, language, and layout features through pretraining, significantly improving information extraction performance. This survey presents a comprehensive overview of deep learning-based frameworks for VRD Content Understanding (VRD-CU). We categorize existing methods based on their modeling strategies and downstream tasks, and provide a comparative analysis of key components, including feature representation, fusion techniques, model architectures, and pretraining objectives. Additionally, we highlight the strengths and limitations of each approach and discuss their suitability for different applications. The paper concludes with a discussion of current challenges and emerging trends, offering guidance for future research and practical deployment in real-world scenarios.
Abstract（参考訳）: ビジュアルリッチドキュメント(VRD)は、学術、金融、医療、マーケティングといった分野において、テキスト、レイアウト、視覚要素の組み合わせを通じて情報を伝達する上で重要な役割を果たす。 VRDから情報を抽出する従来のアプローチは、専門家の知識と手動のアノテーションに大きく依存しており、労働集約的で非効率である。近年のディープラーニングの進歩は、事前学習を通じて視覚、言語、レイアウト機能を統合するマルチモーダルモデルを実現し、情報抽出性能を大幅に改善することで、この状況を変えている。本稿では,VRDコンテンツ理解(VRD-CU)のためのディープラーニングベースのフレームワークの概要を概観する。既存の手法をモデリング戦略と下流タスクに基づいて分類し、特徴表現、融合技術、モデルアーキテクチャ、事前学習目的を含む重要なコンポーネントの比較分析を行う。さらに、各アプローチの長所と短所を強調し、異なるアプリケーションに対するそれらの適合性について議論する。この論文は、現在の課題と新たなトレンドについて議論し、将来の研究のためのガイダンスと現実のシナリオへの実践的な展開を提供する。

関連論文リスト

A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends [11.428017294202162]
Visually-Rich Document Understanding (VRDU)は、複雑なビジュアル、テキスト、レイアウト情報を含む文書を自動的に処理する必要があるため、重要な分野として登場した。この調査はMLLMベースのVRDUの最近の進歩をレビューし、3つのコアコンポーネントを強調した。
論文参考訳（メタデータ） (2025-07-14T02:10:31Z)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文参考訳（メタデータ） (2024-11-07T22:11:51Z)
Building and better understanding vision-language models: insights and future directions [8.230565679484128]
本稿では,現在最先端の視覚言語モデルへのアプローチについて概観する。 Idefics3-8Bは従来のIdefics2-8Bを大きく上回る強力なVLMです。トレーニング用に作成されたデータセットとともに、モデルをリリースしています。
論文参考訳（メタデータ） (2024-08-22T17:47:24Z)
Vision Foundation Models in Remote Sensing: A Survey [6.036426846159163]
ファンデーションモデルは、前例のない精度と効率で幅広いタスクを実行することができる大規模で事前訓練されたAIモデルである。本調査は, 遠隔センシングにおける基礎モデルの開発と応用を継続するために, 進展のパノラマと将来性のある経路を提供することによって, 研究者や実践者の資源として機能することを目的としている。
論文参考訳（メタデータ） (2024-08-06T22:39:34Z)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。 Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。 RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳（メタデータ） (2024-05-10T02:48:45Z)
From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文参考訳（メタデータ） (2024-03-18T17:57:09Z)
Transformers and Language Models in Form Understanding: A Comprehensive Review of Scanned Document Analysis [16.86139440201837]
我々は、スキャンされた文書の文脈におけるフォーム理解のトピックに焦点を当てる。我々の研究手法は、人気文書の詳細な分析と過去10年間のトレンドの理解の形式に関するものである。我々は、トランスフォーマーがいかにフィールドを前進させ、フォームアンダード技術に革命をもたらしたかを紹介する。
論文参考訳（メタデータ） (2024-03-06T22:22:02Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文参考訳（メタデータ） (2024-02-19T19:01:01Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [33.50873478562128]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文参考訳（メタデータ） (2024-01-01T01:12:42Z)
A Study on the Implementation of Generative AI Services Using an Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文参考訳（メタデータ） (2023-09-03T07:03:17Z)
A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning [53.35317176453194]
データ拡張(DA)は、サンプル効率と一般化可能なポリシーを取得するために視覚的RLで広く使われている技術である。本稿では、視覚的RLで使用されている既存の拡張技法の原則的な分類法を提案し、拡張データをどのように活用するかを詳細に議論する。視覚的RLにおけるDAに関する最初の総合的な調査として、この研究は、この新興分野に貴重なガイダンスを提供するものと期待されている。
論文参考訳（メタデータ） (2022-10-10T11:01:57Z)
Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。 REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。 REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文参考訳（メタデータ） (2022-05-02T21:42:45Z)
Self-Supervised Representation Learning: Introduction, Advances and Challenges [125.38214493654534]
自己教師付き表現学習手法は、大きな注釈付きデータセットを必要とせずに強力な機能学習を提供することを目的としている。本稿では、この活気ある領域について、鍵となる概念、アプローチの4つの主要なファミリーと関連する技術の状態、そして、データの多様性に自己監督手法を適用する方法について紹介する。
論文参考訳（メタデータ） (2021-10-18T13:51:22Z)
Deep Learning Schema-based Event Extraction: Literature Review and Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文参考訳（メタデータ） (2021-07-05T16:32:45Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Video Super Resolution Based on Deep Learning: A Comprehensive Survey [87.30395002197344]
深層学習に基づく33の最先端ビデオ超解像法(VSR)を包括的に検討した。そこで本研究では,フレーム間情報を利用した分類手法を提案し,その手法を6つのサブカテゴリに分類する。いくつかのベンチマークデータセットにおける代表的VSR法の性能を要約し比較する。
論文参考訳（メタデータ） (2020-07-25T13:39:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。