論文の概要: Impact of annotation modality on label quality and model performance in
the automatic assessment of laughter in-the-wild
- arxiv url: http://arxiv.org/abs/2211.00794v1
- Date: Wed, 2 Nov 2022 00:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:12:45.142452
- Title: Impact of annotation modality on label quality and model performance in
the automatic assessment of laughter in-the-wild
- Title(参考訳): 笑声の自動評価における注釈モダリティのラベル品質とモデル性能に及ぼす影響
- Authors: Jose Vargas-Quiros, Laura Cabrera-Quiros, Catharine Oertel, Hayley
Hung
- Abstract要約: 笑いの知覚と注釈が、笑いの身体の動きを通じて、ビデオのような他のモダリティとアノテートされたときにどう違うかは、はっきりしない。
我々は、笑いの注釈がモダリティ間で一致しているかどうかを問うとともに、モダリティのラベル付けが機械学習モデルの性能に与える影響を比較した。
48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。
- 参考スコア(独自算出の注目度): 8.242747994568212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Laughter is considered one of the most overt signals of joy. Laughter is
well-recognized as a multimodal phenomenon but is most commonly detected by
sensing the sound of laughter. It is unclear how perception and annotation of
laughter differ when annotated from other modalities like video, via the body
movements of laughter. In this paper we take a first step in this direction by
asking if and how well laughter can be annotated when only audio, only video
(containing full body movement information) or audiovisual modalities are
available to annotators. We ask whether annotations of laughter are congruent
across modalities, and compare the effect that labeling modality has on machine
learning model performance. We compare annotations and models for laughter
detection, intensity estimation, and segmentation, three tasks common in
previous studies of laughter. Our analysis of more than 4000 annotations
acquired from 48 annotators revealed evidence for incongruity in the perception
of laughter, and its intensity between modalities. Further analysis of
annotations against consolidated audiovisual reference annotations revealed
that recall was lower on average for video when compared to the audio
condition, but tended to increase with the intensity of the laughter samples.
Our machine learning experiments compared the performance of state-of-the-art
unimodal (audio-based, video-based and acceleration-based) and multi-modal
models for different combinations of input modalities, training label modality,
and testing label modality. Models with video and acceleration inputs had
similar performance regardless of training label modality, suggesting that it
may be entirely appropriate to train models for laughter detection from body
movements using video-acquired labels, despite their lower inter-rater
agreement.
- Abstract(参考訳): 笑いは喜びの最も過度な信号の1つと考えられている。
笑いはマルチモーダル現象としてよく認識されているが、最も一般的には笑いの音を感知することで検出される。
笑いの身体の動きを通して、ビデオのような他のモダリティと注釈を付けると、笑いの知覚と注釈がどう異なるかは不明である。
本稿では,音声,ビデオ(全身運動情報を含む),音声視覚モダリティのみを注釈者に提供した場合に,笑いがどの程度アノテートできるかを問うことにより,この方向への第一歩を踏み出す。
笑いのアノテーションがモダリティに共通しているかどうかを問うとともに、機械学習モデルのパフォーマンスに対するラベル付けモダリティの影響を比較した。
我々は,過去の笑い研究に共通する3つの課題である笑い検出,強度推定,セグメンテーションのアノテーションとモデルを比較した。
48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。
統合型視聴覚基準アノテーションに対するアノテーションのさらなる分析により,映像に対するリコールは,音声条件と比較して平均的に低かったが,笑いサンプルの強度とともに増加する傾向にあった。
我々の機械学習実験は、入力モダリティ、トレーニングラベルのモダリティ、テストラベルのモダリティの異なる組み合わせに対する最先端のユニモーダル(オーディオベース、ビデオベース、アクセラレーションベース)とマルチモーダルモデルの性能を比較した。
ビデオとアクセラレーションの入力を持つモデルは、トレーニングラベルのモダリティによらず、類似した性能を有しており、レイター間契約の低さにもかかわらず、ビデオ取得ラベルを用いた身体運動からの笑い検出のためのモデルのトレーニングが完全に適切である可能性が示唆された。
関連論文リスト
- A New Perspective on Smiling and Laughter Detection: Intensity Levels
Matter [4.493507573183109]
深層学習に基づくマルチモーダル笑顔・笑い分類システムを提案する。
我々は、融合アプローチと同様に、オーディオモデルと視覚モデルの使用を比較した。
予想通り、融合は、目に見えないデータに対してより良い一般化をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-04T15:15:57Z) - Laughing Matters: Introducing Laughing-Face Generation using Diffusion
Models [35.688696422879175]
そこで本研究では,静止画と笑いを含む音声クリップを用いて,リアルな笑い系列を生成する新しいモデルを提案する。
我々は、さまざまな笑いデータセットに基づいてモデルをトレーニングし、笑いのために特別に設計された評価指標を導入する。
本モデルでは,笑声生成のために再訓練された場合でも,すべての指標に対して最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2023-05-15T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。