論文の概要: Generic Event Boundary Detection via Denoising Diffusion
- arxiv url: http://arxiv.org/abs/2508.12084v1
- Date: Sat, 16 Aug 2025 15:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.556776
- Title: Generic Event Boundary Detection via Denoising Diffusion
- Title(参考訳): Denoising Diffusionによる事象境界検出
- Authors: Jaejun Hwang, Dayoung Gong, Manjin Kim, Minsu Cho,
- Abstract要約: ジェネリックイベント境界検出は、ビデオ内の自然な境界を識別することを目的としており、それを明瞭で意味のあるチャンクに分割する。
従来は、決定論的予測に焦点が当てられ、可算解の多様性を見下ろしていた。
DiffGEBDと呼ばれる新しい拡散型境界検出モデルを導入し,ジェネレーティブの観点からGABDの問題に取り組む。
- 参考スコア(独自算出の注目度): 42.88245960369029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic event boundary detection (GEBD) aims to identify natural boundaries in a video, segmenting it into distinct and meaningful chunks. Despite the inherent subjectivity of event boundaries, previous methods have focused on deterministic predictions, overlooking the diversity of plausible solutions. In this paper, we introduce a novel diffusion-based boundary detection model, dubbed DiffGEBD, that tackles the problem of GEBD from a generative perspective. The proposed model encodes relevant changes across adjacent frames via temporal self-similarity and then iteratively decodes random noise into plausible event boundaries being conditioned on the encoded features. Classifier-free guidance allows the degree of diversity to be controlled in denoising diffusion. In addition, we introduce a new evaluation metric to assess the quality of predictions considering both diversity and fidelity. Experiments show that our method achieves strong performance on two standard benchmarks, Kinetics-GEBD and TAPOS, generating diverse and plausible event boundaries.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、ビデオ内の自然な境界を識別し、それを識別し、意味のあるチャンクに分割することを目的としている。
イベント境界の固有の主観性にもかかわらず、従来の手法は決定論的予測に重点を置いており、可算解の多様性を見越している。
本稿では,ジェネレーションの観点からのGEBD問題に対処する拡散型境界検出モデルDiffGEBDを提案する。
提案モデルでは、時間的自己相似性により隣接するフレーム間の関連する変化を符号化し、次に、ランダムノイズを復号化して、符号化された特徴に条件付けされた可塑性事象境界に復号する。
分類者なし指導により、拡散の認知において多様性の度合いを制御できる。
さらに,多様性と忠実度の両方を考慮した予測の質を評価するための新しい評価基準を導入する。
実験により,Kinetics-GEBD と TAPOS の2つの標準ベンチマークにおいて,多種多様なイベント境界を生成できることを示す。
関連論文リスト
- Uncertainty-Masked Bernoulli Diffusion for Camouflaged Object Detection Refinement [24.522233459116354]
カモフラーゲ型物体検出(COD)は、ターゲットとその背景の微妙な視覚的差異による固有の課題を提示する。
本研究では,COD に特化して設計された最初の生成的改良フレームワークである Uncertainty-Masked Bernoulli Diffusion (UMBD) モデルを提案する。
UMBDは、セグメンテーション品質の低い残留領域にベルヌーイ拡散を選択的に適用する不確実性誘導マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-12T14:02:18Z) - Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文 参考訳(メタデータ) (2024-07-05T06:02:46Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Implicit neural representation for change detection [15.741202788959075]
点雲の変化を検出する最も一般的なアプローチは、教師付き手法に基づいている。
Inlicit Neural Representation (INR) for continuous shape reconstruction と Gaussian Mixture Model for categorising change の2つのコンポーネントからなる教師なしアプローチを提案する。
本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-28T09:26:00Z) - B-BACN: Bayesian Boundary-Aware Convolutional Network for Crack
Characterization [4.447467536572625]
き裂検出の不確かさは, 測定ノイズ, 信号処理, モデルの単純化など, 様々な要因により困難である。
機械学習に基づくアプローチは、不確実性とアレタリック不確実性の両方を同時に定量化するために提案される。
本稿では,不確実性を考慮した境界修正を重視したBundary-Aware Convolutional Network(B-BACN)を提案する。
論文 参考訳(メタデータ) (2023-02-14T04:50:42Z) - UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional
Variational Autoencoders [81.5490760424213]
データラベリングプロセスから学習することで、RGB-Dサリエンシ検出に不確実性を利用するための第1のフレームワーク(UCNet)を提案する。
そこで本研究では,サリエンシデータラベリングにヒントを得て,確率的RGB-Dサリエンシ検出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T04:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。