論文の概要: Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction
Recognition Challenge 2023
- arxiv url: http://arxiv.org/abs/2306.08998v1
- Date: Thu, 15 Jun 2023 09:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:23:21.223164
- Title: Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction
Recognition Challenge 2023
- Title(参考訳): Team AcieLee: EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023のテクニカルレポート
- Authors: Yuqi Li, Yizhi Luo, Xiaoshuai Hao, Chuanguang Yang, Zhulin An, Dantong
Song, Wei Yi
- Abstract要約: タスクは、オブジェクト間の相互作用やカメラ装着者のイベントによって引き起こされるオーディオを分類することである。
その結果, 学習速度の低下, 背骨凍結, ラベルの平滑化, 焦点損失は, 性能改善に大きく寄与することがわかった。
提案手法により,EPIC-SOUNDS音声ベースインタラクション認識チャレンジのCVPR 2023ワークショップにおいて,第3位を達成できた。
- 参考スコア(独自算出の注目度): 8.699868810184752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe the technical details of our submission to the
EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023, by Team
"AcieLee" (username: Yuqi\_Li). The task is to classify the audio caused by
interactions between objects, or from events of the camera wearer. We conducted
exhaustive experiments and found learning rate step decay, backbone frozen,
label smoothing and focal loss contribute most to the performance improvement.
After training, we combined multiple models from different stages and
integrated them into a single model by assigning fusion weights. This proposed
method allowed us to achieve 3rd place in the CVPR 2023 workshop of EPIC-SOUNDS
Audio-Based Interaction Recognition Challenge.
- Abstract(参考訳): 本稿では,チーム "AcieLee" (ユーザ名: Yuqi\_Li) によるEPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023への提出の技術的詳細について述べる。
タスクは、オブジェクト間の相互作用やカメラ装着者のイベントによって引き起こされる音声を分類することである。
徹底的な実験を行い,学習速度の段階的崩壊,バックボーン凍結,ラベル平滑化,焦点損失がパフォーマンス向上に大きく寄与することを確認した。
訓練後、異なる段階から複数のモデルを組み合わせ、融合重みを割り当てて単一のモデルに統合した。
提案手法により,EPIC-SOUNDS音声ベースインタラクション認識チャレンジのCVPR 2023ワークショップで3位を獲得できた。
関連論文リスト
- First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Atomic Activity Recognition 2024 [5.674251666234644]
本報告では,2024年のECCV ROAD++ Challengeのトラック3に参加するための,私たちのチームの技術的ソリューションについて紹介する。
トラック3のタスクは、映像コンテンツに基づいて、路面の64種類の原子活動を特定することを目的とした原子活動認識である。
我々のアプローチは、主に小さなオブジェクトの課題に対処し、単一のオブジェクトとオブジェクトのグループを区別し、モデルオーバーフィットする。
論文 参考訳(メタデータ) (2024-10-30T15:06:58Z) - Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - MIPI 2024 Challenge on Few-shot RAW Image Denoising: Methods and Results [105.4843037899554]
MIPI 2024のRAW画像デノゲーショントラックについて概説し,概説する。
165人の参加者が登録され、7チームが最終テストフェーズで結果を提出しました。
この課題で開発されたソリューションは、Few-shot RAW Image Denoisingにおける最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-06-11T06:59:55Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality [15.034352805342937]
L3DAS23 Signal Processing Grand Challenge at ICASSP 2023の主な目標は、3Dオーディオ信号処理のための機械学習に関する共同研究の促進と支援である。
我々は、L3DAS21とL3DAS22のデータセットと同じ一般的な特性を維持する新しいデータセットを提供する。
両タスクのベースラインモデルを更新し,音声画像のカップルを入力としてサポートし,その結果を再現するサポートAPIを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:34:28Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND
Audio-Based-Interaction-Recognition Challenge 2023 [5.0169092839789275]
本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。
課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。
我々のアプローチは、挑戦テストセットで55.43%の正確さを達成し、公衆のリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2023-07-14T10:39:05Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。