論文の概要: End-to-end Keyword Spotting using Xception-1d
- arxiv url: http://arxiv.org/abs/2110.07498v1
- Date: Sat, 9 Oct 2021 00:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 05:43:58.066876
- Title: End-to-end Keyword Spotting using Xception-1d
- Title(参考訳): xception-1dを用いたエンドツーエンドキーワードスポッティング
- Authors: Iv\'an Vall\'es-P\'erez, Juan G\'omez-Sanchis, Marcelino
Mart\'inez-Sober, Joan Vila-Franc\'es, Antonio J. Serrano-L\'opez, Emilio
Soria-Olivas
- Abstract要約: 我々は,Xceptionアルゴリズムを適応・微調整することで,キーワードスポッティング分野における技術成果の達成方法を示す。
その結果,35のカテゴリーに属する音声クリップを分類すると,約96%の精度が得られた。
- 参考スコア(独自算出の注目度): 1.174402845822043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The field of conversational agents is growing fast and there is an increasing
need for algorithms that enhance natural interaction. In this work we show how
we achieved state of the art results in the Keyword Spotting field by adapting
and tweaking the Xception algorithm, which achieved outstanding results in
several computer vision tasks. We obtained about 96\% accuracy when classifying
audio clips belonging to 35 different categories, beating human annotation at
the most complex tasks proposed.
- Abstract(参考訳): 会話エージェントの分野は急速に成長しており、自然な相互作用を高めるアルゴリズムの必要性が高まっている。
本稿では,複数のコンピュータビジョンタスクにおいて優れた結果を得たxceptionアルゴリズムを適応・調整することにより,キーワードスポッティングフィールドにおける技術結果の達成方法を示す。
提案する最も複雑なタスクにおいて,35のカテゴリーに属する音声クリップを分類する場合,約96\%の精度を得た。
関連論文リスト
- Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Set-based Meta-Interpolation for Few-Task Meta-Learning [79.4236527774689]
そこで本研究では,メタトレーニングタスクの分散化を目的とした,ドメインに依存しないタスク拡張手法Meta-Interpolationを提案する。
様々な領域にまたがる8つのデータセットに対してメタ補間の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2022-05-20T06:53:03Z) - DEIM: An effective deep encoding and interaction model for sentence
matching [0.0]
本稿では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案する。
エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、その後、アルゴリズムを用いて情報を融合する。
インタラクション層では、双方向の注意機構と自己注意機構を用いて深い意味情報を得る。
論文 参考訳(メタデータ) (2022-03-20T07:59:42Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Joint Learning On The Hierarchy Representation for Fine-Grained Human
Action Recognition [13.088129408377918]
微細な人間の行動認識はコンピュータビジョンにおける中核的な研究課題である。
本研究では,FinGym階層表現を利用して効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。
FineGymデータセットに対する我々の結果は、91.80%のTop-1精度と88.46%の要素アクションの平均精度で、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-12T09:37:51Z) - Quantified Facial Expressiveness for Affective Behavior Analytics [0.0]
本論文では,マルチモーダル顔特徴量を用いた境界付き連続表現度スコアを用いた顔表現度を定量化するアルゴリズムを提案する。
提案アルゴリズムは,表現の離散性の観点から表現性を計算し,顔の行動追跡や主観性といったタスクを文脈で実行することができる。
論文 参考訳(メタデータ) (2021-10-05T00:21:33Z) - Fast Approximate Modelling of the Next Combination Result for Stopping
the Text Recognition in a Video [0.0]
本稿では,次の組み合わせ結果のモデル化に基づいて,そのようなプロセスを最適に停止する既存手法について述べる。
本手法は,ビデオ中の文書テキストフィールド認識と任意のテキスト認識のタスクに対して評価された。
論文 参考訳(メタデータ) (2020-08-06T10:42:30Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Getting to 99% Accuracy in Interactive Segmentation [18.207714624149595]
最近のディープラーニングに基づくインタラクティブセグメンテーションアルゴリズムは、複雑な画像の処理に大きな進歩をもたらした。
しかし、この荒削りな選択が達成されれば、深層学習技術は台頭する傾向にある。
ユーザ・ワークフローをよりうまく活用するための新しいインタラクティブ・アーキテクチャと新しいトレーニング・スキームを提案する。
論文 参考訳(メタデータ) (2020-03-17T20:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。