Fugu-MT 論文翻訳(概要): AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention Estimation for Non-Profilic Faces

論文の概要: AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention Estimation for Non-Profilic Faces

arxiv url: http://arxiv.org/abs/2207.03048v1
Date: Thu, 7 Jul 2022 02:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-08 14:09:47.923578
Title: AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention Estimation for Non-Profilic Faces
Title（参考訳）: AV-Gaze:非効率な顔に対する音声誘導型視覚注意推定の有効性の検討
Authors: Shreya Ghosh, Abhinav Dhall, Munawar Hayat, Jarrod Knibbe
Abstract要約: 本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
参考スコア（独自算出の注目度）: 28.245662058349854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In challenging real-life conditions such as extreme head-pose, occlusions, and low-resolution images where the visual information fails to estimate visual attention/gaze direction, audio signals could provide important and complementary information. In this paper, we explore if audio-guided coarse head-pose can further enhance visual attention estimation performance for non-prolific faces. Since it is difficult to annotate audio signals for estimating the head-pose of the speaker, we use off-the-shelf state-of-the-art models to facilitate cross-modal weak-supervision. During the training phase, the framework learns complementary information from synchronized audio-visual modality. Our model can utilize any of the available modalities i.e. audio, visual or audio-visual for task-specific inference. It is interesting to note that, when AV-Gaze is tested on benchmark datasets with these specific modalities, it achieves competitive results on multiple datasets, while being highly adaptive towards challenging scenarios.
Abstract（参考訳）: 視覚情報が視覚的注意/視線方向の推定に失敗する超過度なヘッドポジション、オクルージョン、低解像度画像などの実生活環境において、音声信号は重要かつ補完的な情報を提供することができる。本稿では,非多目的顔の視覚注意推定性能をさらに高めることができるか検討する。話者の頭部位置を推定するための音声信号のアノテートが難しいため, オフ・ザ・シェルフ・オブ・ザ・アートモデルを用いて, クロスモーダルな弱スーパービジョンを実現する。トレーニングフェーズでは、フレームワークは同期したオーディオと視覚のモダリティから補完的な情報を学習する。我々のモデルは、タスク固有の推論に、オーディオ、ビジュアル、オーディオ視覚などの利用可能なモダリティのいずれかを利用することができる。 AV-Gazeがこれらの特定のモダリティを持つベンチマークデータセットでテストされると、複数のデータセット上で競合する結果が得られ、挑戦的なシナリオに対して高い適応性がある点に注意が必要だ。

関連論文リスト

Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation [37.91678426119673]
既存の手法は2つの根本的な問題から生じる視覚バイアスに悩まされている。一様加法融合は、クエリが異なる音源に特化することを防ぎ、視覚のみの訓練目的は、クエリが任意の有意なオブジェクトに収束することを許している。クロスアテンションを用いた音声中心クエリ生成を提案し、各クエリは異なる音源に選択的に参加し、音声固有の先行情報を視覚的復号化することができる。
論文参考訳（メタデータ） (2025-09-26T02:31:17Z)
SSAVSV: Towards Unified Model for Self-Supervised Audio-Visual Speaker Verification [3.380873355096444]
非対称なマスキングとマスク付きデータモデリングを用いたコントラスト学習に基づく自己教師付き学習フレームワークを提案する。我々は、音声と視覚入力のための単一の共有バックボーンを用いて、自己教師型音声視覚話者検証のための統合されたフレームワークを用いる。本手法は,従来の手法に比べて計算コストを低減しつつ,ラベル付きデータを使わずに競争性能を向上する。
論文参考訳（メタデータ） (2025-06-21T12:02:53Z)
When Vision Models Meet Parameter Efficient Look-Aside Adapters Without Large-Scale Audio Pretraining [5.717224738376866]
本研究では,Look Aside Adapter (LoAA) を用いて視覚モデルを直接微調整することにより,事前学習段階をバイパスすることを提案する。実験により, 種々の音声・音声タスクにおいて, 視覚モデルが事前学習された音声モデルの性能に到達または超えることを示す。
論文参考訳（メタデータ） (2024-12-08T14:14:30Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。 VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文参考訳（メタデータ） (2024-07-08T09:45:20Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
Cooperative Dual Attention for Audio-Visual Speech Enhancement with Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文参考訳（メタデータ） (2023-11-24T04:30:31Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
Leveraging Modality-specific Representations for Audio-visual Speech Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。 LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文参考訳（メタデータ） (2022-12-10T14:01:54Z)
Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文参考訳（メタデータ） (2021-02-11T02:24:00Z)
Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文参考訳（メタデータ） (2021-02-02T05:59:35Z)
Look, Listen, and Attend: Co-Attention Network for Self-Supervised Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-13T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。