Fugu-MT 論文翻訳(概要): Efficient Scene Text Detection with Textual Attention Tower

論文の概要: Efficient Scene Text Detection with Textual Attention Tower

arxiv url: http://arxiv.org/abs/2002.03741v1
Date: Thu, 30 Jan 2020 09:50:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-05 12:21:31.044184
Title: Efficient Scene Text Detection with Textual Attention Tower
Title（参考訳）: テキストアテンションタワーを用いた効率的なシーンテキスト検出
Authors: Liang Zhang, Yufei Liu, Hang Xiao, Lu Yang, Guangming Zhu, Syed Afaq Shah, Mohammed Bennamoun, and Peiyi Shen
Abstract要約: シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。偽陽性検出を抑制するための自己注意機構が採用されている。
参考スコア（独自算出の注目度）: 31.08709218937391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text detection has received attention for years and achieved an impressive performance across various benchmarks. In this work, we propose an efficient and accurate approach to detect multioriented text in scene images. The proposed feature fusion mechanism allows us to use a shallower network to reduce the computational complexity. A self-attention mechanism is adopted to suppress false positive detections. Experiments on public benchmarks including ICDAR 2013, ICDAR 2015 and MSRA-TD500 show that our proposed approach can achieve better or comparable performances with fewer parameters and less computational cost.
Abstract（参考訳）: シーンテキスト検出は長年にわたって注目され、様々なベンチマークで印象的なパフォーマンスを達成した。本研究では,シーン画像中の多目的テキストを効率よく正確に検出する手法を提案する。提案する機能融合機構により,より浅いネットワークを用いて計算複雑性を低減できる。偽陽性検出を抑制するための自己注意機構が採用されている。 icdar 2013, icdar 2015, msra-td500などの公開ベンチマーク実験では, 提案手法がより少ないパラメータと少ない計算コストで, より良く, 同等の性能を達成できることが示されている。

関連論文リスト

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文参考訳（メタデータ） (2026-03-03T05:44:47Z)
Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection [102.1314414263959]
限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2025-11-24T16:58:23Z)
Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文参考訳（メタデータ） (2025-09-23T10:21:22Z)
Text-IRSTD: Leveraging Semantic Text to Promote Infrared Small Target Detection in Complex Scenes [3.399048100638418]
我々は,テキストIRSTDと呼ばれる赤外線小ターゲット検出のためのセマンティックテキストを活用した新しいアプローチを提案する。テキストと画像間の情報融合を容易にするために, プログレッシブ・モーダル・セマンティック・インタラクション・デコーダ (PCSID) を提案する。さらに,FZDTと呼ばれるファジィセマンティックテキストアノテーションを用いて,異なるシナリオの2,755個の赤外線画像からなる新しいベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-10T12:33:07Z)
SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。 2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-02-11T03:21:25Z)
Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-24T13:24:03Z)
Refined Infrared Small Target Detection Scheme with Single-Point Supervision [2.661766509317245]
単一点監視を用いた革新的赤外線小目標検出手法を提案する。提案手法は最先端(SOTA)性能を実現する。特に、提案手法は「ICPR 2024 Resource-Limited Infrared Small Target Detection Challenge Track 1: Weakly Supervised Infrared Small Target Detection」で3位を獲得した。
論文参考訳（メタデータ） (2024-08-05T18:49:58Z)
Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文参考訳（メタデータ） (2023-07-27T17:37:56Z)
MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文参考訳（メタデータ） (2023-07-06T02:32:08Z)
TFDet: Target-Aware Fusion for RGB-T Pedestrian Detection [21.04812985569116]
TFDet と呼ばれる多スペクトル歩行者検出のための新しい目標認識融合戦略を提案する。 TFDetは、KAISTとLLVIPの2つのマルチスペクトル歩行者ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-26T02:09:48Z)
Impact of Automatic Image Classification and Blind Deconvolution in Improving Text Detection Performance of the CRAFT Algorithm [0.0]
本研究では,CRAFTのテキスト検出性能を高めるために,画像前処理における自動画像分類とブラインドデコンボリューションの影響について検討した。提案手法は,100のラプラシアン演算子をしきい値として利用することにより,シーンイメージをぼかしと非青色の2つのカテゴリに自動的に分類する。
論文参考訳（メタデータ） (2022-11-29T07:49:22Z)
Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文参考訳（メタデータ） (2022-07-14T06:49:59Z)
ReDFeat: Recoupling Detection and Description for Multimodal Feature Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文参考訳（メタデータ） (2022-05-16T04:24:22Z)
Illumination and Temperature-Aware Multispectral Networks for Edge-Computing-Enabled Pedestrian Detection [10.454696553567809]
本研究は,高精度かつ効率的な歩行者検出のための軽量照明・温度対応マルチスペクトルネットワーク(IT-MN)を提案する。提案アルゴリズムは、車載カメラで収集した公開データセットを用いて、選択した最先端アルゴリズムと比較して評価する。提案アルゴリズムは,GPU上の画像ペアあたり14.19%,0.03秒の低ミス率と推論時間を実現する。
論文参考訳（メタデータ） (2021-12-09T17:27:23Z)
Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。予測された収縮マスクへの依存は不安定な検出結果をもたらす。スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文参考訳（メタデータ） (2021-11-18T07:38:57Z)
MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文参考訳（メタデータ） (2021-04-02T14:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。