論文の概要: VADER: Video Alignment Differencing and Retrieval
- arxiv url: http://arxiv.org/abs/2303.13193v2
- Date: Sat, 25 Mar 2023 10:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:45:22.052560
- Title: VADER: Video Alignment Differencing and Retrieval
- Title(参考訳): VADER:ビデオアライメントのディフレクションと検索
- Authors: Alexander Black, Simon Jenni, Tu Bui, Md. Mehrab Tanjim, Stefano
Petrangeli, Ritwik Sinha, Viswanathan Swaminathan, John Collomosse
- Abstract要約: VADERは、堅牢なビジュアル記述子と、チャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオフラグメントを候補ビデオにマッチし、調整する。
時空間コンパレータモジュールは、コンテンツ間の操作の領域を識別する。
- 参考スコア(独自算出の注目度): 70.88247176534426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose VADER, a spatio-temporal matching, alignment, and change
summarization method to help fight misinformation spread via manipulated
videos. VADER matches and coarsely aligns partial video fragments to candidate
videos using a robust visual descriptor and scalable search over adaptively
chunked video content. A transformer-based alignment module then refines the
temporal localization of the query fragment within the matched video. A
space-time comparator module identifies regions of manipulation between aligned
content, invariant to any changes due to any residual temporal misalignments or
artifacts arising from non-editorial changes of the content. Robustly matching
video to a trusted source enables conclusions to be drawn on video provenance,
enabling informed trust decisions on content encountered.
- Abstract(参考訳): 操作されたビデオを介して拡散する誤情報に対抗するために,時空間マッチング,アライメント,および変更要約手法であるVADERを提案する。
VADERは、ロバストなビジュアル記述子と適応的にチャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオ断片を候補ビデオにマッチし、粗く整列する。
トランスベースのアライメントモジュールは、マッチしたビデオ内のクエリフラグメントの時間的ローカライズを洗練する。
時空間コンパレータモジュールは、コンテンツの非編集的変化に起因する残余の時間的不一致やアーティファクトによる変化に不変な、アライメントされたコンテンツ間の操作領域を特定する。
信頼性のあるソースにロバストにマッチしたビデオは、ビデオの証明に基づいて結論を導き、遭遇したコンテンツに関する情報信頼決定を可能にする。
関連論文リスト
- VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - CoDeF: Content Deformation Fields for Temporally Consistent Video
Processing [89.49585127724941]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval [32.11951065619957]
我々は、クリップが長い未編集ビデオの一部であるクロスモーダルクリップ文検索のタスクを再検討する。
クリップが短く、あるいは視覚的に曖昧である場合には、その局所的時間的文脈に関する知識を用いて検索性能を向上させることができる。
本研究では,ビデオクリップとローカルな時間的コンテキスト間の相互作用をモデル化し,その埋め込み表現を強化するエンコーダアーキテクチャであるContext Transformer (ConTra)を提案する。
論文 参考訳(メタデータ) (2022-10-09T20:11:38Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。