論文の概要: Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling
- arxiv url: http://arxiv.org/abs/2508.02000v1
- Date: Mon, 04 Aug 2025 02:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.149451
- Title: Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling
- Title(参考訳): 階層境界モデリングによるオーディオ・ビジュアルディープフェイクの局在化
- Authors: Xuanjun Chen, Shih-Peng Cheng, Jiawei Du, Lin Zhang, Xiaoxiao Miao, Chung-Che Wang, Haibin Wu, Hung-yi Lee, Jyh-Shing Roger Jang,
- Abstract要約: 私たちはaを提案します。
境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。
粗提案発電機と微細階層確率発生装置
モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
- 参考スコア(独自算出の注目度): 50.8215545241128
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-visual temporal deepfake localization under the content-driven partial manipulation remains a highly challenging task. In this scenario, the deepfake regions are usually only spanning a few frames, with the majority of the rest remaining identical to the original. To tackle this, we propose a Hierarchical Boundary Modeling Network (HBMNet), which includes three modules: an Audio-Visual Feature Encoder that extracts discriminative frame-level representations, a Coarse Proposal Generator that predicts candidate boundary regions, and a Fine-grained Probabilities Generator that refines these proposals using bidirectional boundary-content probabilities. From the modality perspective, we enhance audio-visual learning through dedicated encoding and fusion, reinforced by frame-level supervision to boost discriminability. From the temporal perspective, HBMNet integrates multi-scale cues and bidirectional boundary-content relationships. Experiments show that encoding and fusion primarily improve precision, while frame-level supervision boosts recall. Each module (audio-visual fusion, temporal scales, bi-directionality) contributes complementary benefits, collectively enhancing localization performance. HBMNet outperforms BA-TFD and UMMAFormer and shows improved potential scalability with more training data.
- Abstract(参考訳): コンテンツ駆動部分的操作下での音声・視覚的時間的深層音像定位は,依然として非常に困難な課題である。
このシナリオでは、ディープフェイク領域は通常数フレームにしか分散せず、残りの大部分は元のものと同一である。
これを解決するために,識別フレームレベルの表現を抽出するオーディオ・ビジュアル特徴エンコーダと,候補境界領域を予測する粗い提案生成器と,これらの提案を双方向境界収束確率を用いて洗練する細粒度確率生成器の3つのモジュールを含む階層境界モデリングネットワーク(HBMNet)を提案する。
モダリティの観点からは,識別性を高めるために,フレームレベルの監督によって強化された専用符号化と融合による音声視覚学習を強化する。
時間的観点から、HBMNetはマルチスケールキューと双方向境界コンテンツ関係を統合している。
実験により、符号化と融合が主に精度を向上し、フレームレベルの監視がリコールを促進することが示された。
各モジュール(音響-視覚融合、時間スケール、双方向性)は相補的利益をもたらし、局所化性能を総括的に向上させる。
HBMNetはBA-TFDとUMMAFormerより優れており、より多くのトレーニングデータによって潜在的なスケーラビリティが向上している。
関連論文リスト
- GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Hierarchical Fusion and Joint Aggregation: A Multi-Level Feature Representation Method for AIGC Image Quality Assessment [0.9821874476902972]
AIGCの品質評価は、低レベルの視覚知覚から高レベルの意味理解まで多次元的な課題に直面している。
この制限に対処するため、多段階の視覚表現パラダイムとして、多段階の特徴抽出、階層的融合、共同集約の3段階が提案されている。
ベンチマーク実験では、両タスクにおいて優れた性能を示し、提案したマルチレベル視覚評価パラダイムの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-23T04:12:32Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [47.8417810406568]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Faster Learning of Temporal Action Proposal via Sparse Multilevel
Boundary Generator [9.038216757761955]
ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。
本稿では,境界分類と動作完全性回帰を用いた境界感性手法を改良したSMBG(Sparse Multilevel boundary Generator)を提案する。
提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:26:56Z) - Boundary-semantic collaborative guidance network with dual-stream
feedback mechanism for salient object detection in optical remote sensing
imagery [22.21644705244091]
二重ストリームフィードバック機構を備えた境界意味協調誘導ネットワーク(BSCGNet)を提案する。
BSCGNetは、近年提案されている17の最先端(SOTA)アプローチよりも優れた、挑戦的なシナリオにおいて、明確なアドバンテージを示している。
論文 参考訳(メタデータ) (2023-03-06T03:36:06Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。