論文の概要: Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring
- arxiv url: http://arxiv.org/abs/2308.03515v1
- Date: Mon, 7 Aug 2023 12:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:52:20.429675
- Title: Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring
- Title(参考訳): キーワードスポッティングの簡略化:文字カウントとCTC再構成を用いたセグメンテーションフリーアプローチ
- Authors: George Retsinas, Giorgos Sfikas, Christophoros Nikou
- Abstract要約: セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
- 参考スコア(独自算出の注目度): 8.6134769826665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in segmentation-free keyword spotting treat this problem
w.r.t. an object detection paradigm and borrow from state-of-the-art detection
systems to simultaneously propose a word bounding box proposal mechanism and
compute a corresponding representation. Contrary to the norm of such methods
that rely on complex and large DNN models, we propose a novel segmentation-free
system that efficiently scans a document image to find rectangular areas that
include the query information. The underlying model is simple and compact,
predicting character occurrences over rectangular areas through an implicitly
learned scale map, trained on word-level annotated images. The proposed
document scanning is then performed using this character counting in a
cost-effective manner via integral images and binary search. Finally, the
retrieval similarity by character counting is refined by a pyramidal
representation and a CTC-based re-scoring algorithm, fully utilizing the
trained CNN model. Experimental validation on two widely-used datasets shows
that our method achieves state-of-the-art results outperforming the more
complex alternatives, despite the simplicity of the underlying model.
- Abstract(参考訳): セグメンテーションフリーキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱い、最先端検出システムから借用し、単語境界ボックスの提案機構を同時に提案し、対応する表現を計算する。
複雑なDNNモデルや大規模DNNモデルに依存する手法の規範とは対照的に,文書イメージを効率的にスキャンし,クエリ情報を含む矩形領域を探索するセグメンテーションフリーシステムを提案する。
基礎となるモデルは単純でコンパクトで、単語レベルの注釈付き画像に基づいて訓練された暗黙的に学習されたスケールマップを通じて矩形領域上の文字発生を予測する。
提案する文書スキャニングは、この文字カウントを用いて、統合画像とバイナリ検索を介してコスト効率の良い方法で実行される。
最後に、文字カウントによる検索類似性をピラミッド表現とCTCに基づく再構成アルゴリズムにより洗練し、訓練されたCNNモデルを完全に活用する。
2つの広く使われているデータセットに対する実験的検証は、基礎となるモデルの単純さにもかかわらず、より複雑な代替案に匹敵する結果が得られたことを示している。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Image Retrieval for Structure-from-Motion via Graph Convolutional
Network [13.040952255039702]
本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。
問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。
実験により,本手法は高度にあいまいで重複したシーンの挑戦的データセットにおいて,極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:03:51Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Contrast-weighted Dictionary Learning Based Saliency Detection for
Remote Sensing Images [3.338193485961624]
本稿では,リモートセンシング画像に対するコントラスト重み付き辞書学習(CDL)に基づく新しい唾液度検出モデルを提案する。
具体的には、正と負のサンプルから正と非正の原子を学習し、識別辞書を構築する。
提案手法を用いて, 識別辞書に基づいて, 種々の相補性マップを生成する。
論文 参考訳(メタデータ) (2020-04-06T06:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。