論文の概要: Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.08673v3
- Date: Thu, 5 Sep 2024 16:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 04:21:21.987477
- Title: Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation
- Title(参考訳): 視覚的セマンティックセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティック
- Authors: Renjie Wu, Hu Wang, Feras Dayoub, Hsiang-Ting Chen,
- Abstract要約: ビュー外セマンティックセグメンテーションタスクとセグメンテーション・ビジュアリー・ビュー(SBV)を提案する。
SBVは教師-学生蒸留モデル(Omni2Ego)を用いた聴覚情報を用いて、FoV以外の情報を見逃す視覚的モダリティを補う
このモデルは、パノラマ情報を利用する視覚教師と、8チャンネルのオーディオを持つ聴覚教師と、限られたFoVでビューを取り、FoV以外のオブジェクトに対してセマンティックセグメンテーションを生成するオーディオ視覚学生で構成されている。
- 参考スコア(独自算出の注目度): 9.508130039534205
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Augmented Reality (AR) devices, emerging as prominent mobile interaction platforms, face challenges in user safety, particularly concerning oncoming vehicles. While some solutions leverage onboard camera arrays, these cameras often have limited field-of-view (FoV) with front or downward perspectives. Addressing this, we propose a new out-of-view semantic segmentation task and Segment Beyond View (SBV), a novel audio-visual semantic segmentation method. SBV supplements the visual modality, which miss the information beyond FoV, with the auditory information using a teacher-student distillation model (Omni2Ego). The model consists of a vision teacher utilising panoramic information, an auditory teacher with 8-channel audio, and an audio-visual student that takes views with limited FoV and binaural audio as input and produce semantic segmentation for objects outside FoV. SBV outperforms existing models in comparative evaluations and shows a consistent performance across varying FoV ranges and in monaural audio settings.
- Abstract(参考訳): Augmented Reality(AR)デバイスは、顕著なモバイルインタラクションプラットフォームとして登場し、特に近日中の車両に関して、ユーザ安全上の課題に直面している。
搭載カメラアレイを利用するソリューションもあるが、これらのカメラはしばしば前方または下向きの視野を持つ視野(FoV)に制限がある。
そこで本研究では,新しい音声・視覚的セマンティックセマンティックセマンティクス手法であるセマンティクス・セマンティクス・タスクとセマンティクス・セマンティクス・セマンティクス・タスク(SBV)を提案する。
SBVは教師-学生蒸留モデル(Omni2Ego)を用いた聴覚情報を用いて、FoV以外の情報を見逃す視覚的モダリティを補う。
このモデルは、パノラマ情報を利用する視覚教師と、8チャンネルオーディオを持つ聴覚教師と、限られたFoVとバイノーラルオーディオを入力として、FoV外のオブジェクトのセマンティックセグメンテーションを生成するオーディオ視覚学生で構成されている。
SBVは既存のモデルを比較評価で上回り、様々なFoV範囲とモノラルオーディオ設定で一貫したパフォーマンスを示す。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。
AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文 参考訳(メタデータ) (2023-11-25T17:18:35Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Improving On-Screen Sound Separation for Open Domain Videos with
Audio-Visual Self-attention [28.90333738784927]
本稿では,現在最先端の音声教師付きオンスクリーン音声分離システムについて紹介する。
音を別々に学習し、それを画面上のオブジェクトに関連付けることができる。
論文 参考訳(メタデータ) (2021-06-17T17:23:44Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。