論文の概要: Data Augmentation for Human Behavior Analysis in Multi-Person
Conversations
- arxiv url: http://arxiv.org/abs/2308.01526v1
- Date: Thu, 3 Aug 2023 04:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:29:53.093815
- Title: Data Augmentation for Human Behavior Analysis in Multi-Person
Conversations
- Title(参考訳): 多人数会話における行動分析のためのデータ強化
- Authors: Kun Li, Dan Guo, Guoliang Chen, Feiyang Liu, Meng Wang
- Abstract要約: 我々は,ACM Multimedia 2023 の MultiMediate Grand Challenge 2023 に対して,我々のチーム HFUT-VUT の解決策を提示する。
このソリューションは、身体行動認識、アイコンタクト検出、次の話者予測という3つのサブチャレンジをカバーしている。
- 参考スコア(独自算出の注目度): 27.38635423877249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the solution of our team HFUT-VUT for the
MultiMediate Grand Challenge 2023 at ACM Multimedia 2023. The solution covers
three sub-challenges: bodily behavior recognition, eye contact detection, and
next speaker prediction. We select Swin Transformer as the baseline and exploit
data augmentation strategies to address the above three tasks. Specifically, we
crop the raw video to remove the noise from other parts. At the same time, we
utilize data augmentation to improve the generalization of the model. As a
result, our solution achieves the best results of 0.6262 for bodily behavior
recognition in terms of mean average precision and the accuracy of 0.7771 for
eye contact detection on the corresponding test set. In addition, our approach
also achieves comparable results of 0.5281 for the next speaker prediction in
terms of unweighted average recall.
- Abstract(参考訳): 本稿では,ACM Multimedia 2023 の MultiMediate Grand Challenge 2023 に対して,我々のチーム HFUT-VUT のソリューションを提案する。
このソリューションは、身体的行動認識、アイコンタクト検出、次の話者予測の3つの下位課題をカバーする。
swin transformerをベースラインとして選択し、上記の3つのタスクに対処するためにデータ拡張戦略を利用する。
具体的には、生のビデオをトリミングして、他の部分からノイズを取り除く。
同時に、モデルの一般化を改善するためにデータ拡張を利用する。
その結果, 生体行動認識において, 平均精度, 眼接触検出精度0.7771において, 0.6262 の最適結果を得た。
さらに,非重み付け平均リコールの観点から,次の話者予測における0.5281の比較結果も達成した。
関連論文リスト
- DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation [42.87704953679693]
エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を果たす。
本稿では,音声視覚入力のみに依存し,言語に依存しない対話対応トランスフォーマフレームワークを提案する。
提案手法では, NoXi ベーステストセットの平均 CCC は 0.76 であり, NoXi ベース, NoXi-Add および MPIIGI テストセットの平均 CCC は 0.64 である。
論文 参考訳(メタデータ) (2024-10-11T02:43:45Z) - Accessible, At-Home Detection of Parkinson's Disease via Multi-task Video Analysis [3.1851272788128644]
既存のAIベースのパーキンソン病検出方法は、主にモータや音声タスクの単調な分析に焦点を当てている。
本稿では,このマルチモーダルデータを利用して診断精度を向上させる不確実性校正核融合ネットワーク(UFNet)を提案する。
UFNetは、精度、ORC曲線下(AUROC)の面積、非隣接特異性を維持しながら感度において、シングルタスクモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T04:02:19Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Image-level supervision and self-training for transformer-based
cross-modality tumor segmentation [2.29206349318258]
そこで本研究では,MoDATTSと呼ばれる半教師付きトレーニング戦略を提案する。
MoDATTSは、未実装のバイモーダルデータセット上の正確な3D腫瘍セグメンテーションのために設計されている。
この最大性能の99%と100%は、目標データの20%と50%が注釈付きであれば達成できると報告している。
論文 参考訳(メタデータ) (2023-09-17T11:50:12Z) - Localizing Scan Targets from Human Pose for Autonomous Lung Ultrasound
Imaging [61.60067283680348]
新型コロナウイルス(COVID-19)の世界的なパンデミックの出現に伴い、超音波画像を完全に自動化する必要がある。
本稿では,学習型コンピュータビジョン技術を取り入れた,視覚に基づくデータ駆動方式を提案する。
本手法は、プローブ位置決めのための15.52mm(9.47mm)、プローブ方位のための4.32(3.69deg)の精度を達成し、全走査目標に対する誤差閾値25mm以下で成功率を80%以上とした。
論文 参考訳(メタデータ) (2022-12-15T14:34:12Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - Generalized Wasserstein Dice Loss, Test-time Augmentation, and
Transformers for the BraTS 2021 challenge [3.3180658085204513]
脳腫瘍のセグメンテーションは、医療画像計算において難しい課題である。
本稿では,予測時間を増やすことなくモデルロバスト性を高める戦略を検討する。
テストタイムの増大を伴う7つの3次元U-Netのアンサンブルにより、平均ダイススコア89.4%、平均ハウスドルフ95%距離10.0mmが得られる。
論文 参考訳(メタデータ) (2021-12-24T13:01:44Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - Less is More: Sparse Sampling for Dense Reaction Predictions [60.005266111509435]
本稿では,ビデオチャレンジからの2021Evoked Expressionを提案する。
本モデルでは,音声と画像の両モードを入力として,視聴者の感情変化を予測する。
提案手法は, 最終プライベートテストセットにおいて, ピアソンの相関スコア0.04430を達成した。
論文 参考訳(メタデータ) (2021-06-03T11:33:59Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。