論文の概要: Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends
- arxiv url: http://arxiv.org/abs/2410.13883v1
- Date: Sat, 05 Oct 2024 16:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:41:02.047661
- Title: Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends
- Title(参考訳): チャート理解におけるトランスフォーマーの利用 : 最近の進歩と今後の展望
- Authors: Mirna Al-Shetairy, Hanan Hindy, Dina Khattab, Mostafa M. Aref,
- Abstract要約: 本稿では、理解(CU)における顕著な研究をレビューする。
それは、End-to-End(E2E)ソリューション内でトランスフォーマーを使用するState-of-The-Art(SoTA)フレームワークに焦点を当てている。
この記事では、CUソリューションを進める上で重要な課題を特定し、将来有望な方向性を概説する。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License:
- Abstract: In recent years, interest in vision-language tasks has grown, especially those involving chart interactions. These tasks are inherently multimodal, requiring models to process chart images, accompanying text, underlying data tables, and often user queries. Traditionally, Chart Understanding (CU) relied on heuristics and rule-based systems. However, recent advancements that have integrated transformer architectures significantly improved performance. This paper reviews prominent research in CU, focusing on State-of-The-Art (SoTA) frameworks that employ transformers within End-to-End (E2E) solutions. Relevant benchmarking datasets and evaluation techniques are analyzed. Additionally, this article identifies key challenges and outlines promising future directions for advancing CU solutions. Following the PRISMA guidelines, a comprehensive literature search is conducted across Google Scholar, focusing on publications from Jan'20 to Jun'24. After rigorous screening and quality assessment, 32 studies are selected for in-depth analysis. The CU tasks are categorized into a three-layered paradigm based on the cognitive task required. Recent advancements in the frameworks addressing various CU tasks are also reviewed. Frameworks are categorized into single-task or multi-task based on the number of tasks solvable by the E2E solution. Within multi-task frameworks, pre-trained and prompt-engineering-based techniques are explored. This review overviews leading architectures, datasets, and pre-training tasks. Despite significant progress, challenges remain in OCR dependency, handling low-resolution images, and enhancing visual reasoning. Future directions include addressing these challenges, developing robust benchmarks, and optimizing model efficiency. Additionally, integrating explainable AI techniques and exploring the balance between real and synthetic data are crucial for advancing CU research.
- Abstract(参考訳): 近年、視覚言語タスク、特にチャートの相互作用に関わるタスクへの関心が高まっている。
これらのタスクは本質的にマルチモーダルであり、モデルがチャートイメージ、付随するテキスト、基礎となるデータテーブル、しばしばユーザクエリを処理する必要がある。
伝統的に、チャート理解(CU)はヒューリスティックとルールベースのシステムに依存していた。
しかし、トランスアーキテクチャを統合した最近の進歩により、性能は大幅に向上した。
本稿では,End-to-End(E2E)ソリューション内でのトランスフォーマを利用するSoTA(State-of-The-Art)フレームワークを中心に,CUにおける顕著な研究をレビューする。
関連するベンチマークデータセットと評価手法を解析する。
さらに、この記事では重要な課題を特定し、CUソリューションを進めるための将来的な方向性について概説する。
PRISMAガイドラインに従って、Google Scholar全体で総合的な文献検索が行われ、1月20日から7月24日までの出版物に焦点を当てている。
厳密なスクリーニングと品質評価の後、詳細な分析のために32の研究が選択された。
CUタスクは、必要な認知タスクに基づいて、3階層のパラダイムに分類される。
様々なCUタスクに対処するフレームワークの最近の進歩についてもレビューする。
フレームワークは、E2Eソリューションで解決可能なタスクの数に基づいて、シングルタスクまたはマルチタスクに分類される。
マルチタスクフレームワークでは、事前訓練とプロンプトエンジニアリングに基づく手法が検討されている。
このレビューでは、主要なアーキテクチャ、データセット、事前トレーニングタスクについて概観する。
大幅な進歩にもかかわらず、OCR依存、低解像度画像の処理、視覚的推論の強化に課題が残っている。
今後の方向性には、これらの課題への対処、堅牢なベンチマークの開発、モデルの効率の最適化などが含まれる。
さらに、説明可能なAI技術の統合と、実データと合成データのバランスの探索は、CU研究を進める上で不可欠である。
関連論文リスト
- A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Progressive Knowledge Graph Completion [35.464878766786576]
知識グラフ補完(KGC)は、知識グラフ(KG)における不完全性の問題に対処するための有望な解決策として登場した。
伝統的なKGC研究は主に三重分類とリンク予測に焦点を当てている。
本稿では,現実シナリオにおけるKGの段階的完了をシミュレートするプログレッシブ・ナレッジグラフ補完タスクを提案する。
論文 参考訳(メタデータ) (2024-04-15T16:16:59Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - Transformers and Language Models in Form Understanding: A Comprehensive
Review of Scanned Document Analysis [16.86139440201837]
我々は、スキャンされた文書の文脈におけるフォーム理解のトピックに焦点を当てる。
我々の研究手法は、人気文書の詳細な分析と過去10年間のトレンドの理解の形式に関するものである。
我々は、トランスフォーマーがいかにフィールドを前進させ、フォームアンダード技術に革命をもたらしたかを紹介する。
論文 参考訳(メタデータ) (2024-03-06T22:22:02Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Benchmarking Off-The-Shelf Solutions to Robotic Assembly Tasks [9.125933436783681]
最新のパフォーマンスのベースラインとボトルネックの問題が何であるかは、しばしば不明です。
最近導入されたベンチマークであるNational Institute of Standards and Technology (NIST) Assembly Task Boardsで、オフ・ザ・シェルフ(OTS)産業ソリューションを評価します。
論文 参考訳(メタデータ) (2021-03-08T23:46:48Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。