論文の概要: Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends
- arxiv url: http://arxiv.org/abs/2501.02235v2
- Date: Mon, 10 Mar 2025 03:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.875618
- Title: Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends
- Title(参考訳): ビジュアライズドキュメンテーションに関する質問応答調査:方法,課題,動向
- Authors: Camille Barboule, Benjamin Piwowarski, Yoan Chabot,
- Abstract要約: 視覚的にリッチなドキュメント理解の分野は急速に進化しており、まだ処理パイプラインのいくつかの重要な側面についてのコンセンサスを欠いている。
我々は、最先端のアプローチを包括的に概観し、その強みと限界を強調し、この分野の主な課題を指摘し、有望な研究方向性を提案する。
- 参考スコア(独自算出の注目度): 8.748855120786274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of visually-rich document understanding, which involves interacting with visually-rich documents (whether scanned or born-digital), is rapidly evolving and still lacks consensus on several key aspects of the processing pipeline. In this work, we provide a comprehensive overview of state-of-the-art approaches, emphasizing their strengths and limitations, pointing out the main challenges in the field, and proposing promising research directions.
- Abstract(参考訳): 視覚的にリッチなドキュメント理解の分野は、視覚的にリッチなドキュメント(スキャンでもデジタルでも)とのインタラクションを伴い、急速に進化しており、処理パイプラインのいくつかの重要な側面に関するコンセンサスを欠いている。
本研究では,最先端のアプローチを概観し,その強みと限界を強調し,この分野の主な課題を指摘し,有望な研究方向性を提案する。
関連論文リスト
- LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - A Systematic Survey on Instructional Text: From Representation Formats to Downstream NLP Tasks [0.0]
現実世界のタスクには、現在のNLPシステムでは難しい複雑なマルチステップ命令が伴うことが多い。
本研究は、この新興分野におけるトレンド、課題、機会を特定する177の論文について検討する。
論文 参考訳(メタデータ) (2024-10-24T08:22:59Z) - Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely [8.507599833330346]
外部データで拡張された大規模言語モデル(LLM)は、現実世界のタスクを完了させる際、顕著な能力を示した。
Retrieval-Augmented Generation (RAG) とファインチューニングが注目され、広く応用されている。
しかし、データ拡張LDMを様々な専門分野に効果的に展開することは、重大な課題である。
論文 参考訳(メタデータ) (2024-09-23T11:20:20Z) - Abstractive Text Summarization: State of the Art, Challenges, and Improvements [6.349503549199403]
このレビューでは、最先端のメソッド、課題、ソリューション、比較、制限、将来の改善をチャートアップする包括的なアプローチを取り上げる。
本論文は,不適切な意味表現,事実整合性,制御可能なテキスト要約,言語間要約,評価指標などの課題を強調する。
論文 参考訳(メタデータ) (2024-09-04T03:39:23Z) - LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - A Brief Yet In-Depth Survey of Deep Learning-Based Image Watermarking [1.249418440326334]
本稿では,ディープラーニングに基づく画像透かしに関する総合的な調査を行う。
カバーイメージ内の透かしの埋め込みと抽出に重点を置いており、堅牢性と適応性のシームレスなブレンドを提供することを目的としている。
本稿では,フィールドを埋め込み抽出器,特徴変換としてのディープネットワーク,ハイブリッドメソッドに分割する,洗練された分類手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T22:06:14Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guided Depth Map Super-resolution: A Survey [88.54731860957804]
誘導深度マップ超解像(GDSR)は、高分解能(HR)深度マップを低分解能(LR)観測から2枚のHRカラー画像の助けを借りて再構成することを目的としている。
近年,特に強力な深層学習技術を用いて,斬新で効果的なアプローチが多数提案されている。
この調査は、GDSRの最近の進歩に関する包括的調査を提示する試みである。
論文 参考訳(メタデータ) (2023-02-19T15:43:54Z) - Parsing Objects at a Finer Granularity: A Survey [54.72819146263311]
微細な視覚解析は、農業、リモートセンシング、宇宙技術など、多くの現実世界の応用において重要である。
卓越した研究努力は、異なるパラダイムに従って、これらのきめ細かいサブタスクに取り組む。
我々は,パート関係を学習する新たな視点から,先進的な研究を深く研究する。
論文 参考訳(メタデータ) (2022-12-28T04:20:10Z) - Self-Supervised Representation Learning: Introduction, Advances and
Challenges [125.38214493654534]
自己教師付き表現学習手法は、大きな注釈付きデータセットを必要とせずに強力な機能学習を提供することを目的としている。
本稿では、この活気ある領域について、鍵となる概念、アプローチの4つの主要なファミリーと関連する技術の状態、そして、データの多様性に自己監督手法を適用する方法について紹介する。
論文 参考訳(メタデータ) (2021-10-18T13:51:22Z) - Technical Question Answering across Tasks and Domains [47.80330046038137]
文書検索と読解作業のための調整可能な共同学習手法を提案する。
TechQAに関する我々の実験は、最先端の手法と比較して優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-19T18:39:30Z) - Summarizing Text on Any Aspects: A Knowledge-Informed Weakly-Supervised
Approach [89.56158561087209]
文書に関連する任意の側面を要約する。
監視データがないため、我々は新しい弱い監督構築法とアスペクト・モデリング・スキームを開発した。
実験により,本手法は実文書と合成文書の両方を要約することで,性能の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T03:20:46Z) - Survey on Visual Sentiment Analysis [87.20223213370004]
本稿では、関連する出版物をレビューし、視覚知覚分析の分野の概要を概観する。
また,3つの視点から一般的な視覚知覚分析システムの設計原理について述べる。
様々なレベルの粒度と、異なる方法でイメージに対する感情に影響を与えるコンポーネントを考慮し、問題の定式化について論じる。
論文 参考訳(メタデータ) (2020-04-24T10:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。