論文の概要: A Multi-tasking Model of Speaker-Keyword Classification for Keeping
Human in the Loop of Drone-assisted Inspection
- arxiv url: http://arxiv.org/abs/2207.04027v1
- Date: Fri, 8 Jul 2022 17:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:29:03.665521
- Title: A Multi-tasking Model of Speaker-Keyword Classification for Keeping
Human in the Loop of Drone-assisted Inspection
- Title(参考訳): ドローン支援検査のループにおける人間維持のための話者キーワード分類のマルチタスクモデル
- Authors: Yu Li, Anisha Parsan, Bill Wang, Penghao Dong, Shanshan Yao, Ruwen Qin
- Abstract要約: 本稿では,共有分割協調型アーキテクチャを有するマルチタスク深層学習モデルを構築する。
本研究で収集した検査キーワードデータセットを用いて,5つの認定対象のベースモデルを訓練し,検証した。
このモデルは、認証された検査官のキーワードを分類する際に、95.3%以上の平均精度を達成した。
- 参考スコア(独自算出の注目度): 8.335891204886929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio commands are a preferred communication medium to keep inspectors in the
loop of civil infrastructure inspection performed by a semi-autonomous drone.
To understand job-specific commands from a group of heterogeneous and dynamic
inspectors, a model needs to be developed cost-effectively for the group and
easily adapted when the group changes. This paper is motivated to build a
multi-tasking deep learning model that possesses a Share-Split-Collaborate
architecture. This architecture allows the two classification tasks to share
the feature extractor and then split subject-specific and keyword-specific
features intertwined in the extracted features through feature projection and
collaborative training. A base model for a group of five authorized subjects is
trained and tested on the inspection keyword dataset collected by this study.
The model achieved a 95.3% or higher mean accuracy in classifying the keywords
of any authorized inspectors. Its mean accuracy in speaker classification is
99.2%. Due to the richer keyword representations that the model learns from the
pooled training data, adapting the base model to a new inspector requires only
a little training data from that inspector, like five utterances per keyword.
Using the speaker classification scores for inspector verification can achieve
a success rate of at least 93.9% in verifying authorized inspectors and 76.1\%
in detecting unauthorized ones. Further, the paper demonstrates the
applicability of the proposed model to larger-size groups on a public dataset.
This paper provides a solution to addressing challenges facing AI-assisted
human-robot interaction, including worker heterogeneity, worker dynamics, and
job heterogeneity.
- Abstract(参考訳): 音声コマンドは、半自律的なドローンによって実施される民間インフラ検査のループに検査官を留めておくのに好ましい通信媒体である。
不均一および動的インスペクタのグループからジョブ固有のコマンドを理解するためには、グループに対して費用対効果の高いモデルを開発し、グループ変更時に容易に適応する必要がある。
本稿では,共有分散コラボレートアーキテクチャを持つマルチタスクディープラーニングモデルの構築を動機とする。
このアーキテクチャにより、2つの分類タスクが特徴抽出器を共有し、それから特徴投影と協調訓練を通じて抽出された特徴に介在する主観的特徴とキーワード固有の特徴を分割することができる。
本研究で収集した検査キーワードデータセットを用いて,5つの認定対象のベースモデルを訓練し,検証した。
このモデルは、認可された検査官のキーワードの分類において95.3%以上の精度を達成した。
話者分類における平均精度は99.2%である。
モデルがプールされたトレーニングデータから学習するよりリッチなキーワード表現のため、新しいインスペクタにベースモデルを適用するには、キーワード毎に5発話など、インスペクタからの小さなトレーニングデータのみが必要になる。
この話者分類スコアを検査官検証に用いると、認定検査官の検証で少なくとも93.9%、不正検査検出で76.1\%の成功率が得られる。
さらに,提案モデルが公開データセット上の大規模グループに適用可能であることを示す。
本稿では、労働者の不均質性、労働者のダイナミクス、ジョブの不均質性など、ai支援のロボットインタラクションに直面する課題に対処するソリューションを提供する。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z) - Reinforcement Guided Multi-Task Learning Framework for Low-Resource
Stereotype Detection [3.7223111129285096]
ステレオタイプ検出」データセットは主に、大規模な事前学習言語モデルに対する診断アプローチを採用している。
信頼できるデータセットに注釈をつけるには、テキストでステレオタイプがどのように現れるかという微妙なニュアンスを正確に理解する必要がある。
我々は「ステレオタイプ検出」における経験的性能を改善するために、データ豊富な隣接タスクの多元性を活用するマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-03-27T17:16:11Z) - Contextual Multi-View Query Learning for Short Text Classification in
User-Generated Data [6.052423212814052]
COCOBAは2つのビューを構築するためにユーザ投稿のコンテキストを利用する。
次に、各ビューにおける表現の分布を使用して、反対のクラスに割り当てられた領域を検出する。
我々のモデルは、通常ノイズの多いユーザ投稿の言語に対処するために、クエリ・バイ・コミッテ・モデルも採用しています。
論文 参考訳(メタデータ) (2021-12-05T16:17:21Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。