論文の概要: Document Intelligence in the Era of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2510.13366v1
- Date: Wed, 15 Oct 2025 09:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.61153
- Title: Document Intelligence in the Era of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルの時代におけるドキュメントインテリジェンス:調査
- Authors: Weishi Wang, Hengchang Hu, Zhijie Zhang, Zhaochen Li, Hongxin Shao, Daniel Dahlmeier,
- Abstract要約: ドキュメントAI(DAI)は重要な応用分野として現れており、大規模言語モデル(LLM)の出現によって大きく変化している。
本稿では,DAIの最先端技術に関する構造化分析と,学術的・実践的両面におけるその意義について述べる。
- 参考スコア(独自算出の注目度): 3.7711554135888288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document AI (DAI) has emerged as a vital application area, and is significantly transformed by the advent of large language models (LLMs). While earlier approaches relied on encoder-decoder architectures, decoder-only LLMs have revolutionized DAI, bringing remarkable advancements in understanding and generation. This survey provides a comprehensive overview of DAI's evolution, highlighting current research attempts and future prospects of LLMs in this field. We explore key advancements and challenges in multimodal, multilingual, and retrieval-augmented DAI, while also suggesting future research directions, including agent-based approaches and document-specific foundation models. This paper aims to provide a structured analysis of the state-of-the-art in DAI and its implications for both academic and practical applications.
- Abstract(参考訳): ドキュメントAI(DAI)は重要な応用分野として登場し、大規模言語モデル(LLM)の出現によって大きく変化した。
初期のアプローチはエンコーダ-デコーダアーキテクチャに依存していたが、デコーダのみのLLMはDAIに革命をもたらし、理解と生成の進歩をもたらした。
本調査は、DAIの進化を概観し、この分野におけるLLMの現在の研究課題と今後の展望を概観するものである。
マルチモーダル、多言語、検索強化DAIにおける重要な進歩と課題について検討するとともに、エージェントベースのアプローチや文書固有の基礎モデルを含む今後の研究方向性を提案する。
本稿では,DAIの最先端技術に関する構造化分析と,学術的・実践的両面におけるその意義について述べる。
関連論文リスト
- Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey [40.20905051575087]
AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。
本論文は,マルチモーダル感情認識と推論によるMLLMの交点を包括的に調査する最初の試みである。
論文 参考訳(メタデータ) (2025-09-29T06:13:14Z) - The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM [27.800308082023285]
ビデオ異常検出(VAD)は、ビデオ内の異常な行動や出来事を特定し、接地することを目的としている。
深層モデルアーキテクチャの継続的な進化は、VAD方法論の革新を促した。
MLLM(Multi-modal large language)とLLM(Large Language Model)の急速な開発により、VAD分野に新たな機会と課題がもたらされた。
論文 参考訳(メタデータ) (2025-07-29T10:07:24Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Document Automation Architectures: Updated Survey in Light of Large
Language Models [2.990411348977783]
本稿では,文書自動化(DA)における技術の現状について調査する。
DAの目的は、異なるソースからの入力を自動生成して統合し、定義されたテンプレートに準拠した文書を組み立てることにより、文書作成時の手作業を削減することである。
DAの商業的ソリューションのレビューは、特に法律分野において行われてきたが、これまでDAアーキテクチャと技術に関する学術研究の包括的なレビューは行われていない。
論文 参考訳(メタデータ) (2023-08-18T06:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。