論文の概要: A Multimodal Machine Learning Framework for Teacher Vocal Delivery
Evaluation
- arxiv url: http://arxiv.org/abs/2107.07956v1
- Date: Thu, 15 Jul 2021 05:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:34:07.606877
- Title: A Multimodal Machine Learning Framework for Teacher Vocal Delivery
Evaluation
- Title(参考訳): 教師の音声配信評価のためのマルチモーダル機械学習フレームワーク
- Authors: Hang Li, Yu Kang, Yang Hao, Wenbiao Ding, Zhongqin Wu, Zitao Liu
- Abstract要約: 本稿では,ペアワイズ比較とマルチモーダル・ハウジング・アルゴリズムを用いて,教師の声道伝達の客観評価結果を生成する機械学習手法を提案する。
- 参考スコア(独自算出の注目度): 21.07429789279818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of vocal delivery is one of the key indicators for evaluating
teacher enthusiasm, which has been widely accepted to be connected to the
overall course qualities. However, existing evaluation for vocal delivery is
mainly conducted with manual ratings, which faces two core challenges:
subjectivity and time-consuming. In this paper, we present a novel machine
learning approach that utilizes pairwise comparisons and a multimodal
orthogonal fusing algorithm to generate large-scale objective evaluation
results of the teacher vocal delivery in terms of fluency and passion. We
collect two datasets from real-world education scenarios and the experiment
results demonstrate the effectiveness of our algorithm. To encourage
reproducible results, we make our code public available at
\url{https://github.com/tal-ai/ML4VocalDelivery.git}.
- Abstract(参考訳): 発声の質は教師の熱意を評価する上で重要な指標の一つであり,授業全体の質に結びついていることが広く受け入れられている。
しかし,既存の発声評価は,主観性と時間消費の2つの課題に直面する手作業による評価が主である。
本稿では,教師の声の発声の大規模客観的評価結果を生成するために,ペアワイズ比較と多モード直交拡散アルゴリズムを用いた新しい機械学習手法を提案する。
実世界の教育シナリオから2つのデータセットを収集し,実験結果からアルゴリズムの有効性を示す。
再現可能な結果を促進するため、コード公開は \url{https://github.com/tal-ai/ML4VocalDelivery.git} で行います。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder [22.836016610542387]
本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
実験的な証拠は、我々のフレームワークが音声照合、検証、検索タスクにおいて最先端の結果を達成することを証明している。
論文 参考訳(メタデータ) (2024-04-15T07:05:14Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Unity is Strength: Cross-Task Knowledge Distillation to Improve Code
Review Generation [0.9208007322096533]
本稿では,クロスタスク知識蒸留に基づく新しいディープラーニングアーキテクチャであるdisCOREVを提案する。
提案手法では,コメント生成モデルの微調整をコードリファインメントモデルで指導する。
以上の結果から,本手法はBLEUスコアによって評価されたより良いレビューコメントを生成することが示された。
論文 参考訳(メタデータ) (2023-09-06T21:10:33Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Audio Representation Learning by Distilling Video as Privileged
Information [25.71206255965502]
本稿では,音声・視覚データを用いた深層音声表現学習のための新しい手法を提案する。
我々は、特権情報(LUPI)を用いた学習の枠組みの下で、教師による知識蒸留を採用する。
LUPIを用いた先行研究と同様に、単独の音声認識よりも大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-02-06T15:09:34Z) - Mixtures of Deep Neural Experts for Automated Speech Scoring [11.860560781894458]
本論文は,言語学習者の音声応答からテストプロンプトに対する第二言語能力の自動評価の課題に対処する。
本手法は,(1)音声対話のテキスト書き起こしを自動生成する音声認識システム,(2)テキスト書き起こしを習熟クラスに分類する深層学習者に基づく複数分類システム,の2つの異なるモジュールに依存している。
論文 参考訳(メタデータ) (2021-06-23T15:44:50Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - Key Phrase Classification in Complex Assignments [5.067828201066184]
キーフレーズの分類作業は,人間レベルでは曖昧であり,新しいデータセット上でコーエンのカッパが0.77であることを示す。
事前訓練された言語モデルと単純なTFIDF SVM分類器の両方が、前者の生成平均0.6 F1が後者よりも高い結果を生成する。
論文 参考訳(メタデータ) (2020-03-16T04:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。