論文の概要: Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring
- arxiv url: http://arxiv.org/abs/2308.03515v1
- Date: Mon, 7 Aug 2023 12:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:52:20.429675
- Title: Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring
- Title(参考訳): キーワードスポッティングの簡略化:文字カウントとCTC再構成を用いたセグメンテーションフリーアプローチ
- Authors: George Retsinas, Giorgos Sfikas, Christophoros Nikou
- Abstract要約: セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
- 参考スコア(独自算出の注目度): 8.6134769826665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in segmentation-free keyword spotting treat this problem
w.r.t. an object detection paradigm and borrow from state-of-the-art detection
systems to simultaneously propose a word bounding box proposal mechanism and
compute a corresponding representation. Contrary to the norm of such methods
that rely on complex and large DNN models, we propose a novel segmentation-free
system that efficiently scans a document image to find rectangular areas that
include the query information. The underlying model is simple and compact,
predicting character occurrences over rectangular areas through an implicitly
learned scale map, trained on word-level annotated images. The proposed
document scanning is then performed using this character counting in a
cost-effective manner via integral images and binary search. Finally, the
retrieval similarity by character counting is refined by a pyramidal
representation and a CTC-based re-scoring algorithm, fully utilizing the
trained CNN model. Experimental validation on two widely-used datasets shows
that our method achieves state-of-the-art results outperforming the more
complex alternatives, despite the simplicity of the underlying model.
- Abstract(参考訳): セグメンテーションフリーキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱い、最先端検出システムから借用し、単語境界ボックスの提案機構を同時に提案し、対応する表現を計算する。
複雑なDNNモデルや大規模DNNモデルに依存する手法の規範とは対照的に,文書イメージを効率的にスキャンし,クエリ情報を含む矩形領域を探索するセグメンテーションフリーシステムを提案する。
基礎となるモデルは単純でコンパクトで、単語レベルの注釈付き画像に基づいて訓練された暗黙的に学習されたスケールマップを通じて矩形領域上の文字発生を予測する。
提案する文書スキャニングは、この文字カウントを用いて、統合画像とバイナリ検索を介してコスト効率の良い方法で実行される。
最後に、文字カウントによる検索類似性をピラミッド表現とCTCに基づく再構成アルゴリズムにより洗練し、訓練されたCNNモデルを完全に活用する。
2つの広く使われているデータセットに対する実験的検証は、基礎となるモデルの単純さにもかかわらず、より複雑な代替案に匹敵する結果が得られたことを示している。
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [61.783728119255365]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:57:02Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Image Retrieval for Structure-from-Motion via Graph Convolutional
Network [13.040952255039702]
本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。
問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。
実験により,本手法は高度にあいまいで重複したシーンの挑戦的データセットにおいて,極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:03:51Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Contrast-weighted Dictionary Learning Based Saliency Detection for
Remote Sensing Images [3.338193485961624]
本稿では,リモートセンシング画像に対するコントラスト重み付き辞書学習(CDL)に基づく新しい唾液度検出モデルを提案する。
具体的には、正と負のサンプルから正と非正の原子を学習し、識別辞書を構築する。
提案手法を用いて, 識別辞書に基づいて, 種々の相補性マップを生成する。
論文 参考訳(メタデータ) (2020-04-06T06:49:05Z) - Segmentation and Recovery of Superquadric Models using Convolutional
Neural Networks [2.454342521577328]
畳み込みニューラルネットワーク(CNN)を中心に構築された(二段階)アプローチを提案する。
第1段階では,提案手法はMask RCNNモデルを用いて,深度シーンにおける超クワッドリックな構造を同定する。
我々は、少数の解釈可能なパラメータを持つ複雑な構造を記述することができる。
論文 参考訳(メタデータ) (2020-01-28T18:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。