Fugu-MT 論文翻訳(概要): You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine

論文の概要: You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine

arxiv url: http://arxiv.org/abs/2207.11230v1
Date: Tue, 19 Jul 2022 07:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-31 14:15:16.664908
Title: You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine
Title（参考訳）: 実際にそれを2回見る(yaltai): krakenエンジン内の領域分割の代わりにオブジェクト検出アプローチを使う
Authors: Thibault Cl\'erice (ENC, CJM, HiSoMA, UJML)
Abstract要約: 我々は,ほとんどのセグメンタが画素分類に重点を置いており,この出力のポリゴン化は,歴史文書における最新のコンペのターゲットとして使用されていないことを示す。そこで本研究では,画素分類に基づく多角化から,等義長方形を用いた物体検出へ,効率よくタスクをシフトすることを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Layout Analysis (the identification of zones and their classification) is the first step along line segmentation in Optical Character Recognition and similar tasks. The ability of identifying main body of text from marginal text or running titles makes the difference between extracting the work full text of a digitized book and noisy outputs. We show that most segmenters focus on pixel classification and that polygonization of this output has not been used as a target for the latest competition on historical document (ICDAR 2017 and onwards), despite being the focus in the early 2010s. We propose to shift, for efficiency, the task from a pixel classification-based polygonization to an object detection using isothetic rectangles. We compare the output of Kraken and YOLOv5 in terms of segmentation and show that the later severely outperforms the first on small datasets (1110 samples and below). We release two datasets for training and evaluation on historical documents as well as a new package, YALTAi, which injects YOLOv5 in the segmentation pipeline of Kraken 4.1.
Abstract（参考訳）: レイアウト分析(ゾーンの識別とその分類)は、光学的文字認識と類似のタスクにおけるラインセグメンテーションに沿った最初のステップである。テキストの本体を限界テキストやランニングタイトルから識別する能力は、デジタル化された本の全文を抽出することとノイズのある出力を区別する。多くのセグメンタは画素分類に焦点を当てており、この出力の多角化は2010年代前半の焦点であったにもかかわらず、最新の歴史文書(icdar 2017以降)のターゲットには使われていない。本稿では,画素分類に基づく多角化から等角形を用いた物体検出へタスクを効率良くシフトする。 krakenとyolov5のアウトプットをセグメンテーションの観点で比較し、後続のアウトプットが小さなデータセット (1110サンプル以下) で最初の値を大きく上回っていることを示した。歴史的文書のトレーニングと評価のための2つのデータセットと,Kraken 4.1のセグメンテーションパイプラインにYOLOv5を注入する新しいパッケージYALTAiをリリースする。

関連論文リスト

SparseUWSeg: Active Sparse Point-Label Augmentation for Underwater Semantic Segmentation [5.595626117136082]
セマンティックセグメンテーションのための新しいフレームワークであるSparseUWSegを紹介する。 SparseUWSegは、アノテータを誘導し、ポイントラベルの価値を最大化するアクティブサンプリング戦略を採用している。 2つの多様な水中データセットの実験は、最先端アプローチに対するSparseUWSegの利点を示している。
論文参考訳（メタデータ） (2025-10-11T10:56:48Z)
Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark [12.231630639022335]
SAMベースのエンコーダデコーダ,車両部品知識グラフ,コンテキストサンプル検索符号化モジュールの3つのコアコンポーネントからなる新しいフレームワークであるSAVを提案する。知識グラフは、構造オントロジーを通じて車両部品間の空間的および幾何学的関係を明示的にモデル化し、事前構造的知識を効果的に符号化する。我々は,11,665の高品質なピクセルレベルのアノテーションを含む自動車部品セグメンテーションのための大規模ベンチマークデータセット,VabySeg10Kを紹介した。
論文参考訳（メタデータ） (2025-08-06T09:46:49Z)
Part Segmentation of Human Meshes via Multi-View Human Parsing [0.0]
並行して、人間のパーシングの分野は、画像から身体部分と衣服/アクセサリーラベルを予測することに焦点を当てている。この研究は、大規模なヒューマンメッシュの頂点ごとのセマンティックセマンティックセグメンテーションを可能にすることによって、これらの2つのドメインをブリッジすることを目的としている。
論文参考訳（メタデータ） (2025-07-22T19:42:34Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。 Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文参考訳（メタデータ） (2024-08-22T15:29:08Z)
SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文参考訳（メタデータ） (2024-07-03T15:30:45Z)
A Lightweight Clustering Framework for Unsupervised Semantic Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2023-11-30T15:33:42Z)
Self-supervised Scene Text Segmentation with Object-centric Layered Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-08-25T05:00:05Z)
CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文参考訳（メタデータ） (2023-06-07T10:02:29Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2022-02-04T07:19:09Z)
Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文参考訳（メタデータ） (2020-08-06T16:25:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。