論文の概要: QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me
Challenge
- arxiv url: http://arxiv.org/abs/2306.17404v1
- Date: Fri, 30 Jun 2023 05:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:32:51.162116
- Title: QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me
Challenge
- Title(参考訳): QuAVF:私に挑戦するEgo4Dのための高品質なオーディオ・ビジュアル・フュージョン
- Authors: Hsi-Che Lin, Chien-Yi Wang, Min-Hung Chen, Szu-Wei Fu, Yu-Chiang Frank
Wang
- Abstract要約: 本報告では,2023年のEgo4D Talking to Me (TTM) Challengeについて述べる。
入力ビデオと音声を処理するために,2つの別々のモデルを提案する。
単純なアーキテクチャ設計では、テストセットの平均精度(mAP)は67.4%に達する。
- 参考スコア(独自算出の注目度): 35.08570071278399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes our QuAVF@NTU-NVIDIA submission to the Ego4D
Talking to Me (TTM) Challenge 2023. Based on the observation from the TTM task
and the provided dataset, we propose to use two separate models to process the
input videos and audio. By doing so, we can utilize all the labeled training
data, including those without bounding box labels. Furthermore, we leverage the
face quality score from a facial landmark prediction model for filtering noisy
face input data. The face quality score is also employed in our proposed
quality-aware fusion for integrating the results from two branches. With the
simple architecture design, our model achieves 67.4% mean average precision
(mAP) on the test set, which ranks first on the leaderboard and outperforms the
baseline method by a large margin. Code is available at:
https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23
- Abstract(参考訳): この技術レポートでは、Ego4D Talking to Me (TTM) Challenge 2023へのQuAVF@NTU-NVIDIAの提出について述べています。
TTMタスクと提供されるデータセットからの観測に基づいて、入力ビデオとオーディオを処理するために2つの別々のモデルを提案する。
これにより、バウンドボックスラベルを使わずに、ラベル付きトレーニングデータをすべて利用できる。
さらに、顔ランドマーク予測モデルからの顔品質スコアを活用し、ノイズの多い顔入力データをフィルタリングする。
顔の質スコアは,2つの枝から得られる結果を統合するために提案した品質認識融合にも用いられる。
単純なアーキテクチャ設計により、テストセット上で67.4%の平均精度(map)を達成し、リードボードで最初にランク付けし、ベースラインメソッドを大きなマージンで上回った。
コードは以下の通り。 https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z) - Blind Face Restoration: Benchmark Datasets and a Baseline Model [63.053331687284064]
Blind Face Restoration (BFR) は、対応する低品質 (LQ) 入力から高品質 (HQ) の顔画像を構築することを目的としている。
EDFace-Celeb-1M (BFR128) と EDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを最初に合成する。
最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。
論文 参考訳(メタデータ) (2022-06-08T06:34:24Z) - Ask2Mask: Guided Data Selection for Masked Speech Modeling [25.716834361963468]
Masked Speech Modeling (MSM) は、発話中にランダムにマスキングされた音声フレーム上の表現を学習する。
教師なしのすべての音声サンプルを同じ重さで扱うことで、すべてのサンプルが意味のある表現を学ぶための関連情報を持っているわけではないため、学習を妨げる。
我々は,MSM事前トレーニング中に特定のサンプルに焦点をあてる新しいアプローチである ask2mask (ATM) を提案する。
論文 参考訳(メタデータ) (2022-02-24T17:34:54Z) - An Empirical Study of Vehicle Re-Identification on the AI City Challenge [19.13038665501964]
Track2は、現実世界のデータと合成データの両方を扱う車両再識別(ReID)タスクである。
主に、この課題におけるトレーニングデータ、教師なしドメイン適応(UDA)トレーニング、後処理、モデルアンサンブルの4点に注目します。
以上の手法により, 最終的に0.7445mAPのスコアが得られた。
論文 参考訳(メタデータ) (2021-05-20T12:20:52Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。