Fugu-MT 論文翻訳(概要): Financial Table Extraction in Image Documents

関連論文リスト

Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models [2.6300820904868263]
金融文書は、規制当局、監査官、金融機関にとって重要な情報源である。これらの文書は異質であり、同じレポートの中で物語、表、図形、多言語の内容が混在する傾向がある。本稿では,従来の画像処理モデルとOCR抽出を利用するマルチステージパイプラインと,構造化されたフィールド抽出のためのコンパクトなVLMを提案する。
論文参考訳（メタデータ） (2025-10-27T06:56:08Z)
VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization [7.769156392417315]
鍵情報抽出は、視覚文書の理解の基盤となる。既存のマルチモーダルな大言語モデル (MLLM) は、高密度な文書ではよく機能しない。本稿では,空間領域検出と意味的特徴抽出を分離するMLLMであるVDInstructを紹介する。
論文参考訳（メタデータ） (2025-07-13T08:15:11Z)
Bridging Knowledge Gap Between Image Inpainting and Large-Area Visible Watermark Removal [57.84348166457113]
本稿では,事前学習した画像の塗装モデルの表現能力を活用する新しい特徴適応フレームワークを提案する。本手法は, 透かしの残像の残像を塗布バックボーンモデルに流し込むことにより, 透かしと透かし除去の知識ギャップを埋めるものである。高品質な透かしマスクへの依存を緩和するために,粗い透かしマスクを用いて推論プロセスを導出する新たな訓練パラダイムを導入する。
論文参考訳（メタデータ） (2025-04-07T02:37:14Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。トークン長に関する復元と生成品質の間にはトレードオフがある。本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文参考訳（メタデータ） (2024-10-02T17:06:39Z)
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文参考訳（メタデータ） (2024-08-07T11:20:37Z)
Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文参考訳（メタデータ） (2024-03-04T03:21:40Z)
DocMAE: Document Image Rectification via Self-supervised Representation Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文参考訳（メタデータ） (2023-04-20T14:27:15Z)
Image-text Retrieval via Preserving Main Semantics of Vision [5.376441473801597]
本稿では,視覚的セマンティック・ロス (VSL) として実装された意味的最適化手法を提案する。我々は、画像に対応する注釈付きテキストを活用して、画像の主コンテンツを取得する際のモデルを支援する。 2つのベンチマークデータセットの実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-04-20T12:23:29Z)
DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文参考訳（メタデータ） (2022-01-27T10:50:22Z)
Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-07-26T05:50:41Z)
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2021-06-02T05:42:51Z)
Deep Structured Feature Networks for Table Detection and Tabular Data Extraction from Scanned Financial Document Images [0.6299766708197884]
本研究では、財務PDF文書から自動テーブル検出と表データ抽出を提案する。我々は,より高速なR-CNN(Region-based Convolutional Neural Network)モデルを用いて,テーブル領域を検出する3つの主要なプロセスからなる手法を提案する。提案したデータセットから,検出モデルの卓越したテーブル検出性能を得た。
論文参考訳（メタデータ） (2021-02-20T08:21:17Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)
GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。我々はFinTabという中国の標準データセットを公開しています。今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文参考訳（メタデータ） (2020-03-17T07:10:05Z)
TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。 TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文参考訳（メタデータ） (2020-01-06T10:25:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Financial Table Extraction in Image Documents

関連論文リスト