論文の概要: OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation
- arxiv url: http://arxiv.org/abs/2504.20682v3
- Date: Mon, 09 Jun 2025 12:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.959813
- Title: OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation
- Title(参考訳): OG-HFYOLO : 変形テーブルセルインスタンスセグメンテーションのための配向勾配誘導と異種特徴融合
- Authors: Long Liu, Cihui Yang,
- Abstract要約: OG-HFYOLOモデルを提案し、グラディエント・オリエンテーション・アウェア・エクストラクタによるエッジ応答を向上させる。
また,細粒度テーブルセル空間座標定位のためのデータセットのギャップを埋めるデータ生成器を提案する。
実験により,本モデルが主流のインスタンスセグメンテーションモデルに対して優れたセグメンテーション精度を示すことが示された。
- 参考スコア(独自算出の注目度): 0.606193815371355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table structure recognition is a key task in document analysis. However, the geometric deformation in deformed tables causes a weak correlation between content information and structure, resulting in downstream tasks not being able to obtain accurate content information. To obtain fine-grained spatial coordinates of cells, we propose the OG-HFYOLO model, which enhances the edge response by Gradient Orientation-aware Extractor, combines a Heterogeneous Kernel Cross Fusion module and a scale-aware loss function to adapt to multi-scale objective features, and introduces mask-driven non-maximal suppression in the post-processing, which replaces the traditional bounding box suppression mechanism. Furthermore, we also propose a data generator, filling the gap in the dataset for fine-grained deformation table cell spatial coordinate localization, and derive a large-scale dataset named Deformation Wired Table (DWTAL). Experiments show that our proposed model demonstrates excellent segmentation accuracy on all mainstream instance segmentation models. The dataset and the source code are open source: https://github.com/justliulong/OGHFYOLO.
- Abstract(参考訳): テーブル構造認識は文書解析における重要なタスクである。
しかし、変形したテーブルの幾何学的変形は、コンテンツ情報と構造の間に弱い相関関係を生じさせ、ダウンストリームタスクは正確なコンテンツ情報を得ることができない。
セルの微細な空間座標を得るため, 水平方向認識エクストラクタによるエッジ応答を向上させるOG-HFYOLOモデルを提案し, ヘテロジニアスカーネルクロスフュージョンモジュールとスケールアウェアロス関数を組み合わせ, マスク駆動によるポストプロセッシングの非最大抑制を導入し, 従来の境界ボックス抑制機構を置き換える。
さらに, 微粒な変形テーブルセル空間座標定位のためのデータセットのギャップを埋めるデータ生成器を提案し, 変形Wired Table (DWTAL) と呼ばれる大規模データセットを導出する。
実験により,本モデルが主流のインスタンスセグメンテーションモデルに対して優れたセグメンテーション精度を示すことが示された。
データセットとソースコードはオープンソースである。 https://github.com/justliulong/OGHFYOLO。
関連論文リスト
- TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Trivialized Momentum Facilitates Diffusion Generative Modeling on Lie Groups [37.78638937228254]
本稿では、自明化と呼ばれる手法がユークリッド空間における拡散モデルの有効性をリー群に伝達する方法を示す。
タンパク質とRNAのねじれ角の生成と高度なトーラスデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-25T23:53:07Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation [87.23575166061413]
KP-RED は KeyPoint 主導の Retrieval and deformation フレームワークである。
オブジェクトスキャンを入力として、最も幾何学的に類似したCADモデルを共同で検索し、変形させる。
論文 参考訳(メタデータ) (2024-03-15T08:44:56Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - SIGMA: Scale-Invariant Global Sparse Shape Matching [50.385414715675076]
非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。
いくつかの挑戦的な3Dデータセットに対して,スパースな非剛性マッチングの最先端結果を示す。
論文 参考訳(メタデータ) (2023-08-16T14:25:30Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Geodesic Sinkhorn for Fast and Accurate Optimal Transport on Manifolds [53.110934987571355]
多様体グラフ上の熱核に基づく測地学的シンクホーンを提案する。
化学療法中の患者試料からの高次元単細胞データの複数分布のバリセンタの計算に本法を適用した。
論文 参考訳(メタデータ) (2022-11-02T00:51:35Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Stochastic tensor space feature theory with applications to robust machine learning [3.6891975755608355]
テンソル空間に基づくマルチレベル直交部分空間(MOS)カーフン・ローブ特徴量理論を開発する。
私たちのキーとなる観察は、個別の機械学習クラスは、主に異なる部分空間に存在することができるということです。
血漿データセット(アルツハイマー病神経画像イニシアチブ)の検査では、精度が劇的に向上した。
論文 参考訳(メタデータ) (2021-10-04T22:01:01Z) - INSIDE: Steering Spatial Attention with Non-Imaging Information in CNNs [14.095546881696311]
本稿では,非画像情報をセグメンテーションネットワークに統合して性能向上を図ることの課題について考察する。
本研究では,非画像情報に基づく空間的局所化を実現する機構を提案する。
我々の手法はエンドツーエンドで訓練でき、追加の監督を必要としない。
論文 参考訳(メタデータ) (2020-08-21T13:32:05Z) - BasisVAE: Translation-invariant feature-level clustering with
Variational Autoencoders [9.51828574518325]
変分オートエンコーダ(VAE)は、非線形次元削減のための柔軟でスケーラブルなフレームワークを提供する。
崩壊した変分推論スキームがBasisVAEのスケーラブルかつ効率的な推論にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2020-03-06T23:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。