論文の概要: Document Image Rectification Bases on Self-Adaptive Multitask Fusion
- arxiv url: http://arxiv.org/abs/2505.06038v1
- Date: Fri, 09 May 2025 13:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.275759
- Title: Document Image Rectification Bases on Self-Adaptive Multitask Fusion
- Title(参考訳): 自己適応型マルチタスク融合に基づく文書化基盤
- Authors: Heng Li, Xiangping Wu, Qingcai Chen,
- Abstract要約: 本稿では,SalmRecという自己適応型学習型マルチタスク融合整流ネットワークを提案する。
このネットワークには、幾何学的歪みの知覚を適応的に改善するタスク間特徴集約モジュールが組み込まれている。
また,グローバルタスクとローカルタスクのバランスをとるためのゲーティング機構も導入した。
- 参考スコア(独自算出の注目度): 17.529651556361355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deformed document image rectification is essential for real-world document understanding tasks, such as layout analysis and text recognition. However, current multi-task methods -- such as background removal, 3D coordinate prediction, and text line segmentation -- often overlook the complementary features between tasks and their interactions. To address this gap, we propose a self-adaptive learnable multi-task fusion rectification network named SalmRec. This network incorporates an inter-task feature aggregation module that adaptively improves the perception of geometric distortions, enhances feature complementarity, and reduces negative interference. We also introduce a gating mechanism to balance features both within global tasks and between local tasks effectively. Experimental results on two English benchmarks (DIR300 and DocUNet) and one Chinese benchmark (DocReal) demonstrate that our method significantly improves rectification performance. Ablation studies further highlight the positive impact of different tasks on dewarping and the effectiveness of our proposed module.
- Abstract(参考訳): レイアウト解析やテキスト認識といった実世界の文書理解タスクには,変形文書画像の修正が不可欠である。
しかし、背景の除去、3D座標予測、テキスト行のセグメンテーションといった現在のマルチタスクメソッドは、しばしばタスクとそれらの相互作用の相補的な特徴を見落としている。
このギャップに対処するために,SalmRecという自己適応型学習型マルチタスク融合整流ネットワークを提案する。
このネットワークは、幾何歪みの知覚を適応的に改善し、特徴相補性を高め、負の干渉を低減するタスク間特徴集約モジュールを組み込んでいる。
また,グローバルタスクとローカルタスクのバランスをとるためのゲーティング機構も導入した。
2つの英語ベンチマーク (DIR300 と DocUNet) と1つの中国語ベンチマーク (DocReal) による実験結果から, 本手法は補正性能を大幅に向上することが示された。
アブレーション研究は、異なるタスクがデウォープに与える影響と提案モジュールの有効性をさらに強調する。
関連論文リスト
- Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
意思決定検証機構を備えたマルチエージェント編集システムを構築する。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion [82.74585945197231]
統合画像融合は、マルチソース画像からの補完情報を統合し、画質を向上させることを目的としている。
既存の一般画像融合法では、異なる融合タスクへの適応を可能にする明示的なタスク識別が組み込まれている。
本稿では,タスク不変相互作用とタスク固有適応のバランスをとる,新たな統合画像融合フレームワーク「TITA」を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:08:35Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving [40.305452898732774]
S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。
S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
論文 参考訳(メタデータ) (2024-01-21T06:47:33Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Task-Aware Asynchronous Multi-Task Model with Class Incremental
Contrastive Learning for Surgical Scene Understanding [17.80234074699157]
手術報告生成とツール-タスク間相互作用予測のためのマルチタスク学習モデルを提案する。
共有特徴抽出器のモデル形式,キャプション用メッシュ・トランスフォーマブランチ,ツールとタスク間の相互作用予測のためのグラフアテンションブランチ。
タスク認識型非同期MTL最適化手法を組み込んで,共有重みを微調整し,両タスクを最適に収束させる。
論文 参考訳(メタデータ) (2022-11-28T14:08:48Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。