Fugu-MT 論文翻訳(概要): Ensemble of Anchor-Free Models for Robust Bangla Document Layout Segmentation

論文の概要: Ensemble of Anchor-Free Models for Robust Bangla Document Layout Segmentation

arxiv url: http://arxiv.org/abs/2308.14397v1
Date: Mon, 28 Aug 2023 08:24:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 14:51:46.794784
Title: Ensemble of Anchor-Free Models for Robust Bangla Document Layout Segmentation
Title（参考訳）: ロバストバングラ文書レイアウト分割のためのアンカーフリーモデルの組合わせ
Authors: U Mong Sain Chak, Md. Asib Rahman
Abstract要約: 本稿では,Bangla文書のレイアウトを分割する目的で設計された革新的なシステムを提案する。我々の手法は、DL Sprint 2.0 - BUET CSE Fest 2023 コンペティションに慎重に適合した、YOLOv8モデルの洗練されたコレクションを活用することを含みます。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this research paper, we present an innovative system designed for the purpose of segmenting the layout of Bangla documents. Our methodology involves utilizing a sophisticated collection of YOLOv8 models, meticulously adapted for the DL Sprint 2.0 - BUET CSE Fest 2023 Competition that centers around Bangla document layout segmentation. Our primary focus lies in elevating various elements of the task, including techniques like image augmentation, model architecture, and the use of model ensembles. We intentionally lower the quality of a subset of document images to enhance the resilience of model training, consequently leading to an improvement in our cross-validation score. Employing Bayesian optimization, we determine the optimal confidence and IoU thresholds for our model ensemble. Through our approach, we successfully showcase the effectiveness of amalgamating anchor-free models to achieve robust layout segmentation in Bangla documents.
Abstract（参考訳）: 本稿では,バングラ文書のレイアウトを分割する目的で設計された革新的なシステムを提案する。我々の手法は、Banglaドキュメントレイアウトセグメンテーションを中心にしたDL Sprint 2.0 - BUET CSE Fest 2023コンペティションに細心の注意を払って適合したYOLOv8モデルの洗練されたコレクションを利用する。私たちの主な焦点は、画像強化、モデルアーキテクチャ、モデルアンサンブルの使用など、タスクのさまざまな要素の上昇にあります。ドキュメントイメージのサブセットの品質を意図的に低下させて,モデルトレーニングのレジリエンスを高めることにより,クロスバリデーションスコアが向上した。ベイズ最適化を用いて、モデルアンサンブルの最適信頼度とIoU閾値を決定する。提案手法により,バングラ文書におけるロバストなレイアウトセグメンテーションを実現するために,アンカーフリーモデルとのマッチングの有効性を実証した。

関連論文リスト

SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。 SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文参考訳（メタデータ） (2025-10-14T16:43:22Z)
BEN: Using Confidence-Guided Matting for Dichotomous Image Segmentation [0.0]
CGM(Confidence-Guided Matting)と呼ばれる画像セグメンテーションのための新しいアーキテクチャ手法を提案する。 BEN は、初期セグメンテーションのための BEN Base と信頼性ベースの精錬のための BEN Refiner の2つのコンポーネントで構成されている。本研究は,コンピュータビジョンにおける微粒化オブジェクト境界予測を改善するため,マッチングとセグメンテーション技術を統合するための新しいパラダイムを導入する。
論文参考訳（メタデータ） (2025-01-08T01:30:11Z)
Graph Topic Modeling for Documents with Spatial or Covariate Dependencies [0.9208007322096533]
文書レベルのメタデータをトピックモデリングに組み込むという課題に対処する。高速グラフ正規化反復特異値分解に基づく新しい推定器を提案する。合成データセットと実世界の3つのコーパスに関する包括的実験により,本モデルの有効性を検証した。
論文参考訳（メタデータ） (2024-12-19T03:00:26Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文参考訳（メタデータ） (2024-02-17T04:16:30Z)
A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文参考訳（メタデータ） (2024-01-11T15:13:31Z)
Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach [0.6562256987706128]
我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。完全なデータセットに対する我々のアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。私たちの実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。
論文参考訳（メタデータ） (2023-09-02T07:17:43Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
Improving Transferability of Adversarial Examples via Bayesian Attacks [84.90830931076901]
モデル入力にベイズ定式化を組み込むことにより,モデル入力とモデルパラメータの共分散を可能にする新しい拡張を導入する。提案手法は,トランスファーベース攻撃に対する新たな最先端技術を実現し,ImageNetとCIFAR-10の平均成功率をそれぞれ19.14%,2.08%向上させる。
論文参考訳（メタデータ） (2023-07-21T03:43:07Z)
WeLayout: WeChat Layout Analysis System for the ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents [42.1096906112963]
企業文書のレイアウトを分割する新しいシステムWeimatを紹介する。本手法はベースラインをはるかに上回り,mAPは70.0。
論文参考訳（メタデータ） (2023-05-11T04:05:30Z)
Multimodal Side-Tuning for Document Classification [3.0229888038442914]
サイドチューニング(Side-tuning)は、最近導入されたネットワーク適応の方法論である。また,異なるデータソースを考慮した場合も,サイドチューニングをうまく活用できることが示唆された。
論文参考訳（メタデータ） (2023-01-16T11:08:03Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。