論文の概要: Talking Detection In Collaborative Learning Environments
- arxiv url: http://arxiv.org/abs/2110.07646v1
- Date: Thu, 14 Oct 2021 18:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 09:36:45.840424
- Title: Talking Detection In Collaborative Learning Environments
- Title(参考訳): 協調学習環境における発話検出
- Authors: Wenjing Shi, Marios S. Pattichis, Sylvia Celed\'on-Pattichis, Carlos
L\'opezLeiva
- Abstract要約: 協調学習ビデオにおける発話行動の検出問題について検討する。
本手法では,光学フローベクトルの対数値の頭部検出と投影を用いて問題を低減している。
音声検出において,提案手法は単一活動系よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 6.77826572434964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of detecting talking activities in collaborative
learning videos. Our approach uses head detection and projections of the
log-magnitude of optical flow vectors to reduce the problem to a simple
classification of small projection images without the need for training
complex, 3-D activity classification systems. The small projection images are
then easily classified using a simple majority vote of standard classifiers.
For talking detection, our proposed approach is shown to significantly
outperform single activity systems. We have an overall accuracy of 59% compared
to 42% for Temporal Segment Network (TSN) and 45% for Convolutional 3D (C3D).
In addition, our method is able to detect multiple talking instances from
multiple speakers, while also detecting the speakers themselves.
- Abstract(参考訳): 協調学習ビデオにおける発話行動の検出問題について検討する。
本手法では,光学フローベクトルの対数倍の頭部検出と投影を用いて,複雑な3次元活動分類システムの訓練を必要とせず,小さな投影画像の単純な分類に問題を縮小する。
小さな投影画像は、標準分類器の単純な多数決で容易に分類される。
音声検出において,提案手法は単一活動系よりも優れた性能を示す。
時間分割ネットワーク(TSN)では42%,畳み込み3D(C3D)では45%と比較すると,全体的な精度は59%であった。
さらに,本手法では,複数の話者から複数の話者を検出できると同時に,話者自体を検出できる。
関連論文リスト
- Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection [68.26282316080558]
現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
論文 参考訳(メタデータ) (2024-12-23T18:57:43Z) - Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based
Approach [8.436437583394998]
本稿では,複数の物体の存在を検出するための戦略を提案する。
この戦略は、高次元空間における単純体の角を識別することに基づいている。
提案手法は,極端設定における精度をわずかながら統計的に向上させる能力を示す。
論文 参考訳(メタデータ) (2023-01-16T11:37:05Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Single Image Object Counting and Localizing using Active-Learning [4.56877715768796]
単一画像シナリオにおける反復オブジェクトのカウントとローカライズのための新しい手法を提案する。
本手法は,少数のアクティブ・ラーニング・イテレーションにおいて,入力画像から注意深く収集したラベルの小さなセットに対してCNNを訓練する。
既存のユーザ支援カウント法と比較すると,ユーザマウスのクリック数,ランニングタイムの計測と位置決めの精度の観点から,能動的学習が最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2021-11-16T11:29:21Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - SS3D: Single Shot 3D Object Detector [1.631115063641726]
シングルショット3Dオブジェクト検出(Single Shot 3D Object Detection、SS3D)は、シングルステージの3Dオブジェクト検出アルゴリズムである。
提案手法は, 直接, 統計的に計算された入力表現と単一ショット検出器を組み合わせる。
AVODやF-PointNetのような一般的な3Dオブジェクト検出器よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2020-04-30T10:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。