論文の概要: OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer
- arxiv url: http://arxiv.org/abs/2604.24762v1
- Date: Mon, 27 Apr 2026 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.363107
- Title: OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer
- Title(参考訳): OmniShotCut:Shot-Query Transformerを用いた正則リレーショナルショット境界検出
- Authors: Boyang Wang, Guangyi Xu, Zhipeng Tang, Jiahui Zhang, Zezhou Cheng,
- Abstract要約: ショット境界検出(SBD)は、ショットの変更を自動的に識別し、ビデオをコヒーレントなショットに分割することを目的としている。
構造的関係予測としてSBDを定式化するOmniShotCutを提案する。
また,最新のワイドベンチマークであるOmniShotCutBenchを導入し,総合的および診断的評価を可能にした。
- 参考スコア(独自算出の注目度): 26.75835449285258
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Shot Boundary Detection (SBD) aims to automatically identify shot changes and divide a video into coherent shots. While SBD was widely studied in the literature, existing state-of-the-art methods often produce non-interpretable boundaries on transitions, miss subtle yet harmful discontinuities, and rely on noisy, low-diversity annotations and outdated benchmarks. To alleviate these limitations, we propose OmniShotCut to formulate SBD as structured relational prediction, jointly estimating shot ranges with intra-shot relations and inter-shot relations, by a shot query-based dense video Transformer. To avoid imprecise manual labeling, we adopt a fully synthetic transition synthesis pipeline that automatically reproduces major transition families with precise boundaries and parameterized variants. We also introduce OmniShotCutBench, a modern wide-domain benchmark enabling holistic and diagnostic evaluation.
- Abstract(参考訳): ショット境界検出(SBD)は、ショットの変更を自動的に識別し、ビデオをコヒーレントなショットに分割することを目的としている。
SBDは文献で広く研究されているが、既存の最先端の手法はしばしば遷移の非解釈可能な境界を生成し、微妙で有害な不連続性を見逃し、ノイズ、低多様性のアノテーション、時代遅れのベンチマークに依存している。
これらの制約を緩和するために,OmniShotCut は,ショット内関係とショット間関係を連立で推定し,構造化された関係予測として SBD を定式化する。
不正確な手動ラベリングを避けるため、我々は完全合成遷移合成パイプラインを採用し、精密な境界とパラメータ化された変種を持つ主要遷移系列を自動再生する。
また,最新のワイドベンチマークであるOmniShotCutBenchを導入し,総合的および診断的評価を可能にした。
関連論文リスト
- Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis [11.555599433797235]
全スライド画像は、組織サンプルのギガピクセルスケールのパノラマで、正確な疾患診断に欠かせない。
既存のMILメソッドは、単一のバッグレベルのラベルが多数のパッチレベルの特徴の学習をガイドしなければならないという基本的な不均衡のために、課題に直面している。
ラベルに依存しない正規化信号としてパッチ特徴間の空間的関係を生かした空間正規化MILフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-23T04:07:08Z) - A Dual-Branch Framework for Semantic Change Detection with Boundary and Temporal Awareness [8.202209362704494]
ANetと呼ばれる境界と時間認識による意味的変化検出のためのデュアルブランチフレームワークを提案する。
ANetはグローバルなセマンティクス、局所的な詳細、時間的推論、境界認識を統合し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-12T00:54:22Z) - A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis [64.42659342276117]
ビデオの異常な研究のほとんどは、フレームワイド検出で停止し、なぜイベントが異常なのかについての洞察はほとんど得られない。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T14:49:08Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - Robust Brain Tumor Segmentation with Incomplete MRI Modalities Using Hölder Divergence and Mutual Information-Enhanced Knowledge Transfer [10.66488607852885]
不完全なモダリティであっても高いセグメンテーション精度を実現する頑健な単一モード並列処理フレームワークを提案する。
モデルでは、利用可能な入力に基づいてネットワークパラメータを動的に調整しながら、モダリティ固有の特徴を維持している。
これらのばらつきと情報に基づく損失関数を用いることで、このフレームワークは予測と地味ラベルの差異を効果的に定量化する。
論文 参考訳(メタデータ) (2025-07-02T00:18:07Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Synthesize Boundaries: A Boundary-aware Self-consistent Framework for
Weakly Supervised Salient Object Detection [8.951168425295378]
設計した合成画像とラベルから正確な境界を学習することを提案する。
合成画像は、塩物の実凹部を模擬する合成凹部を挿入することにより境界情報を生成する。
また,グローバル積分分枝 (GIB) と境界認識分枝 (BAB) から構成される新たな自己整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:22:45Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。