Fugu-MT 論文翻訳(概要): QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge

論文の概要: QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge

arxiv url: http://arxiv.org/abs/2306.17404v1
Date: Fri, 30 Jun 2023 05:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 13:32:51.162116
Title: QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge
Title（参考訳）: QuAVF:私に挑戦するEgo4Dのための高品質なオーディオ・ビジュアル・フュージョン
Authors: Hsi-Che Lin, Chien-Yi Wang, Min-Hung Chen, Szu-Wei Fu, Yu-Chiang Frank Wang
Abstract要約: 本報告では,2023年のEgo4D Talking to Me (TTM) Challengeについて述べる。入力ビデオと音声を処理するために,2つの別々のモデルを提案する。単純なアーキテクチャ設計では、テストセットの平均精度(mAP)は67.4%に達する。
参考スコア（独自算出の注目度）: 35.08570071278399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This technical report describes our QuAVF@NTU-NVIDIA submission to the Ego4D Talking to Me (TTM) Challenge 2023. Based on the observation from the TTM task and the provided dataset, we propose to use two separate models to process the input videos and audio. By doing so, we can utilize all the labeled training data, including those without bounding box labels. Furthermore, we leverage the face quality score from a facial landmark prediction model for filtering noisy face input data. The face quality score is also employed in our proposed quality-aware fusion for integrating the results from two branches. With the simple architecture design, our model achieves 67.4% mean average precision (mAP) on the test set, which ranks first on the leaderboard and outperforms the baseline method by a large margin. Code is available at: https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23
Abstract（参考訳）: この技術レポートでは、Ego4D Talking to Me (TTM) Challenge 2023へのQuAVF@NTU-NVIDIAの提出について述べています。 TTMタスクと提供されるデータセットからの観測に基づいて、入力ビデオとオーディオを処理するために2つの別々のモデルを提案する。これにより、バウンドボックスラベルを使わずに、ラベル付きトレーニングデータをすべて利用できる。さらに、顔ランドマーク予測モデルからの顔品質スコアを活用し、ノイズの多い顔入力データをフィルタリングする。顔の質スコアは,2つの枝から得られる結果を統合するために提案した品質認識融合にも用いられる。単純なアーキテクチャ設計により、テストセット上で67.4%の平均精度(map)を達成し、リードボードで最初にランク付けし、ベースラインメソッドを大きなマージンで上回った。コードは以下の通り。 https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23

関連論文リスト

Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D [107.69104331520677]
Contra4は、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる、対照的な相互モーダル推論のためのデータセットである。コントラ4は、人間の注釈付きキャプションとモデルの混合フィルタを組み合わせて高品質な監視を確実にし、174kのトレーニング例と2.3kの試験セットを手作業で検証する。タスク固有の微調整はベースラインと比較してパフォーマンスを56%向上させるが、最先端のモデルでは全体の56%の精度と4つのモダリティ設定で42%の精度しか達成していない。
論文参考訳（メタデータ） (2025-06-02T03:12:13Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文参考訳（メタデータ） (2024-03-18T16:52:49Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文参考訳（メタデータ） (2022-07-04T11:32:48Z)
Blind Face Restoration: Benchmark Datasets and a Baseline Model [63.053331687284064]
Blind Face Restoration (BFR) は、対応する低品質 (LQ) 入力から高品質 (HQ) の顔画像を構築することを目的としている。 EDFace-Celeb-1M (BFR128) と EDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを最初に合成する。最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。
論文参考訳（メタデータ） (2022-06-08T06:34:24Z)
Ask2Mask: Guided Data Selection for Masked Speech Modeling [25.716834361963468]
Masked Speech Modeling (MSM) は、発話中にランダムにマスキングされた音声フレーム上の表現を学習する。教師なしのすべての音声サンプルを同じ重さで扱うことで、すべてのサンプルが意味のある表現を学ぶための関連情報を持っているわけではないため、学習を妨げる。我々は,MSM事前トレーニング中に特定のサンプルに焦点をあてる新しいアプローチである ask2mask (ATM) を提案する。
論文参考訳（メタデータ） (2022-02-24T17:34:54Z)
An Empirical Study of Vehicle Re-Identification on the AI City Challenge [19.13038665501964]
Track2は、現実世界のデータと合成データの両方を扱う車両再識別(ReID)タスクである。主に、この課題におけるトレーニングデータ、教師なしドメイン適応(UDA)トレーニング、後処理、モデルアンサンブルの4点に注目します。以上の手法により, 最終的に0.7445mAPのスコアが得られた。
論文参考訳（メタデータ） (2021-05-20T12:20:52Z)
AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文参考訳（メタデータ） (2020-08-03T15:12:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。