論文の概要: Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends
- arxiv url: http://arxiv.org/abs/2501.02235v2
- Date: Mon, 10 Mar 2025 03:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:20.969835
- Title: Survey on Question Answering over Visually Rich Documents: Methods, Challenges, and Trends
- Title(参考訳): ビジュアライズドキュメンテーションに関する質問応答調査:方法,課題,動向
- Authors: Camille Barboule, Benjamin Piwowarski, Yoan Chabot,
- Abstract要約: 視覚的にリッチなドキュメント理解の分野は急速に進化しており、まだ処理パイプラインのいくつかの重要な側面についてのコンセンサスを欠いている。
我々は、最先端のアプローチを包括的に概観し、その強みと限界を強調し、この分野の主な課題を指摘し、有望な研究方向性を提案する。
- 参考スコア(独自算出の注目度): 8.748855120786274
- License:
- Abstract: The field of visually-rich document understanding, which involves interacting with visually-rich documents (whether scanned or born-digital), is rapidly evolving and still lacks consensus on several key aspects of the processing pipeline. In this work, we provide a comprehensive overview of state-of-the-art approaches, emphasizing their strengths and limitations, pointing out the main challenges in the field, and proposing promising research directions.
- Abstract(参考訳): 視覚的にリッチなドキュメント理解の分野は、視覚的にリッチなドキュメント(スキャンでもデジタルでも)とのインタラクションを伴い、急速に進化しており、処理パイプラインのいくつかの重要な側面に関するコンセンサスを欠いている。
本研究では,最先端のアプローチを概観し,その強みと限界を強調し,この分野の主な課題を指摘し,有望な研究方向性を提案する。
関連論文リスト
- LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely [8.507599833330346]
外部データで拡張された大規模言語モデル(LLM)は、現実世界のタスクを完了させる際、顕著な能力を示した。
Retrieval-Augmented Generation (RAG) とファインチューニングが注目され、広く応用されている。
しかし、データ拡張LDMを様々な専門分野に効果的に展開することは、重大な課題である。
論文 参考訳(メタデータ) (2024-09-23T11:20:20Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Retrieving Multimodal Information for Augmented Generation: A Survey [35.33076940985081]
マルチモーダルな知識を検索することで生成モデルを補助・拡張する手法について検討する。
このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。
論文 参考訳(メタデータ) (2023-03-20T05:07:41Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。