論文の概要: Fine-Grained Classroom Activity Detection from Audio with Neural
Networks
- arxiv url: http://arxiv.org/abs/2107.14369v2
- Date: Tue, 9 Nov 2021 21:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 11:15:03.254959
- Title: Fine-Grained Classroom Activity Detection from Audio with Neural
Networks
- Title(参考訳): ニューラルネットワークを用いた音声からの微粒教室活動検出
- Authors: Eric Slyman, Chris Daw, Morgan Skrabut, Ana Usenko, Brian Hutchinson
- Abstract要約: 教室活動の定量化は、革新的な教育実践の評価と洗練を加速する鍵となる要素である。
本稿では,音声による教室活動自動検出の若い応用分野について紹介する。
- 参考スコア(独自算出の注目度): 2.0129254577146565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instructors are increasingly incorporating student-centered learning
techniques in their classrooms to improve learning outcomes. In addition to
lecture, these class sessions involve forms of individual and group work, and
greater rates of student-instructor interaction. Quantifying classroom activity
is a key element of accelerating the evaluation and refinement of innovative
teaching practices, but manual annotation does not scale. In this manuscript,
we present advances to the young application area of automatic classroom
activity detection from audio. Using a university classroom corpus with nine
activity labels (e.g., "lecture," "group work," "student question"), we propose
and evaluate deep fully connected, convolutional, and recurrent neural network
architectures, comparing the performance of mel-filterbank, OpenSmile, and
self-supervised acoustic features. We compare 9-way classification performance
with 5-way and 4-way simplifications of the task and assess two types of
generalization: (1) new class sessions from previously seen instructors, and
(2) previously unseen instructors. We obtain strong results on the new
fine-grained task and state-of-the-art on the 4-way task: our best model
obtains frame-level error rates of 6.2%, 7.7% and 28.0% when generalizing to
unseen instructors for the 4-way, 5-way, and 9-way classification tasks,
respectively (relative reductions of 35.4%, 48.3% and 21.6% over a strong
baseline). When estimating the aggregate time spent on classroom activities,
our average root mean squared error is 1.64 minutes per class session, a 54.9%
relative reduction over the baseline.
- Abstract(参考訳): インストラクターは、学習結果を改善するために、教室で生徒中心の学習技術を取り入れている。
講義に加えて、これらのクラスセッションには個人とグループの仕事の形があり、学生とインストラクタの交流の割合が高くなる。
授業活動の定量化は、革新的教育実践の評価と洗練を加速する重要な要素であるが、手動アノテーションはスケールしない。
本稿では,音声からの自動教室活動検出の若い応用分野への展開について述べる。
9つのアクティビティラベル(例えば、講義、グループワーク、スチューデント質問)を持つ大学教室コーパスを用いて、mel-filterbank、opensmile、self-supervised acoustic featuresのパフォーマンスを比較することにより、深い完全接続、畳み込み、再帰的なニューラルネットワークアーキテクチャを提案し、評価する。
タスクの5方向および4方向の簡略化と9方向の分類性能を比較し,(1)既見のインストラクターからの新たなクラスセッション,(2)未見のインストラクターの2種類の一般化を評価した。
最善のモデルは,4ウェイ,5ウェイ,9ウェイの分類タスクにおいて,未発見のインストラクタに一般化した場合のフレームレベルエラー率6.2%,7.7%,28.0%(強ベースラインに対して35.4%,48.3%,21.6%)を得る。
教室活動に費やされる合計時間を推定する場合、平均根平均二乗誤差はクラスセッションあたり1.64分であり、ベースラインよりも54.9%減少している。
関連論文リスト
- Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration [64.6107798750142]
Vocal Sandboxは、位置のある環境でシームレスな人間とロボットのコラボレーションを可能にするフレームワークである。
我々は,ロボットの能力に対する理解と協調をリアルタイムで構築できる軽量で解釈可能な学習アルゴリズムを設計する。
我々はVocal Sandboxを,コラボレーションギフトバッグアセンブリとLEGOストップモーションアニメーションの2つの設定で評価した。
論文 参考訳(メタデータ) (2024-11-04T20:44:40Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - Class Balanced Dynamic Acquisition for Domain Adaptive Semantic
Segmentation using Active Learning [3.175227858236288]
ドメイン適応型アクティブラーニングは、ニューラルネットワークのラベル効率のトレーニングにおいて電荷を導いている。
セマンティックセグメンテーションでは、最先端のモデルでは、不確実性と多様性の2つの基準を併用してトレーニングラベルを選択する。
このような手法は、現在、より大規模なアクティブな学習予算のために、その性能を低下させるクラス不均衡の問題に悩まされている。
論文 参考訳(メタデータ) (2023-11-23T18:35:26Z) - SegPrompt: Boosting Open-world Segmentation via Category-level Prompt
Learning [49.17344010035996]
オープンワールドインスタンスセグメンテーション(OWIS)モデルは、クラスに依存しない方法で未知のオブジェクトを検出する。
以前のOWISは、未知のオブジェクトに一般化するモデルの能力を維持するために、トレーニング中のカテゴリ情報を完全に消去するアプローチだった。
そこで本研究では,モデルのクラスに依存しないセグメンテーション能力を改善するためにカテゴリ情報を利用するSegPromptと呼ばれる新しいトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-08-12T11:25:39Z) - Teamwork Is Not Always Good: An Empirical Study of Classifier Drift in
Class-incremental Information Extraction [12.4259256312658]
授業増分学習は,学習前の授業を忘れることなく,データストリームから新しいクラスを継続的に学習できる学習システムを開発することを目的としている。
本稿では,分類器内のドリフトがいかにして忘れてしまうかを詳しく検討し,それに伴い,ドリフトを緩和するための4つの単純かつ(超)効果的な解法について述べる。
我々の解は、常に44.7%の絶対Fスコアゲインを持つ従来の最先端のアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-26T00:57:43Z) - Low-complexity deep learning frameworks for acoustic scene
classification using teacher-student scheme and multiple spectrograms [59.86658316440461]
提案システムは,教師のネットワークを訓練する(Phase I)と,教師の知識を蒸留して学生のネットワークを訓練する(Phase II)の2つの段階から構成される。
DCASE 2023 Task 1 Developmentデータセットで実施した実験は,低複雑さの要求を満たすとともに,57.4%の最高の分類精度を達成した。
論文 参考訳(メタデータ) (2023-05-16T14:21:45Z) - Seminar Learning for Click-Level Weakly Supervised Semantic Segmentation [149.9226057885554]
クリックレベルの監視を伴う意味的セグメンテーションのための新しい学習パラダイムであるセミナー学習を提案する。
セミナー学習の理論的根拠は、異なるネットワークからの知識を活用して、クリックレベルのアノテーションで提供される不十分な情報を補うことである。
実験により,72.51%の新たな最先端性能を実現するセミナー学習の有効性が示された。
論文 参考訳(メタデータ) (2021-08-30T17:27:43Z) - Multimodal Engagement Analysis from Facial Videos in the Classroom [5.202558003704116]
本研究の目的は,授業の質や教員養成の文脈において,授業ビデオの手動データ分析を容易にするための技術手段を提供することである。
論文 参考訳(メタデータ) (2021-01-11T22:15:04Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。