論文の概要: Beyond Real versus Fake Towards Intent-Aware Video Analysis
- arxiv url: http://arxiv.org/abs/2511.22455v1
- Date: Thu, 27 Nov 2025 13:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.587242
- Title: Beyond Real versus Fake Towards Intent-Aware Video Analysis
- Title(参考訳): リアルとフェイクを超越したインテント対応ビデオ分析
- Authors: Saurabh Atreya, Nabyl Quignon, Baptiste Chopin, Abhijit Das, Antitza Dantcheva,
- Abstract要約: IntentHQは、人間中心の意図分析のための新しいベンチマークである。
IntrepidHQは5168本のビデオに23の微粒な意図カテゴリーを付加している。
教師付きおよび自己監督型多時間モデルを用いて意図認識を行う。
- 参考スコア(独自算出の注目度): 9.47027153139396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of generative models has led to increasingly realistic deepfake videos, posing significant societal and security risks. While existing detection methods focus on distinguishing real from fake videos, such approaches fail to address a fundamental question: What is the intent behind a manipulated video? Towards addressing this question, we introduce IntentHQ: a new benchmark for human-centered intent analysis, shifting the paradigm from authenticity verification to contextual understanding of videos. IntentHQ consists of 5168 videos that have been meticulously collected and annotated with 23 fine-grained intent-categories, including "Financial fraud", "Indirect marketing", "Political propaganda", as well as "Fear mongering". We perform intent recognition with supervised and self-supervised multi-modality models that integrate spatio-temporal video features, audio processing, and text analysis to infer underlying motivations and goals behind videos. Our proposed model is streamlined to differentiate between a wide range of intent-categories.
- Abstract(参考訳): 生成モデルの急速な進歩により、ますます現実的なディープフェイクビデオが生まれ、社会とセキュリティの重大なリスクが生じた。
既存の検出方法は、本物と偽ビデオの区別に重点を置いているが、そのようなアプローチは根本的な問題に対処できない: 操作されたビデオの背後にある意図は何か?
この問題に対処するために、人間中心の意図分析のための新しいベンチマークであるIntentHQを紹介します。
IntentHQは5168本のビデオからなり、「金融詐欺」、「間接マーケティング」、「政治プロパガンダ」、「ファイア・モンジャー」など、23の微妙な意図カテゴリーで精巧に収集、注釈付けされている。
ビデオの背後にあるモチベーションや目標を推測するために、時空間ビデオ機能、音声処理、テキスト分析を統合した教師付きおよび自己教師型マルチモダリティモデルを用いて意図認識を行う。
提案手法は,広範囲の意図カテゴリーを区別するために合理化されている。
関連論文リスト
- Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models [65.23999399834638]
DeceptionDecodedは,信頼に値する参照記事に基づく12,000のイメージキャプチャペアのベンチマークである。
データセットは、誤解を招くケースと、誤解を招くケースの両方をキャプチャし、視覚的およびテキスト的モダリティにわたって操作する。
インテント中心の3つのタスク – 意図の検出を誤解させる、ソースの属性を誤解させる、創造的欲求推論 – をサポートしている。
論文 参考訳(メタデータ) (2025-05-21T13:14:32Z) - How Far are AI-generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach [46.85336335756483]
Learned 3D Evaluation (L3DE) は、3次元の視覚的品質とコンピテンシーの観点から、現実世界をシミュレートするAI生成ビデオの能力を評価する方法である。
信頼スコアは、3次元視覚的コヒーレンスの観点から、リアルビデオと合成ビデオのギャップを定量化する。
L3DEは、ビデオ生成モデルをベンチマークし、ディープフェイク検出器として機能し、フラグ付き不整合を塗布することでビデオ合成を強化する。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T21:52:49Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.1819804607793705]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが効果的な軽減策のセットである。
まずは偽のビデオ検出から始め、生成されたビデオにユニークさがあるかどうかを理解します。
そこで本研究では,偽動画を生成したモデルにマッピングする,偽ビデオソース追跡問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Detecting Deepfake Videos Using Euler Video Magnification [1.8506048493564673]
Deepfakeのビデオは、高度な機械学習技術を使ってビデオを操作している。
本稿では,ディープフェイク映像の識別技術について検討する。
提案手法では,Euler手法から抽出した特徴を用いて,偽造映像と未修正映像を分類する3つのモデルを訓練する。
論文 参考訳(メタデータ) (2021-01-27T17:37:23Z) - Cost Sensitive Optimization of Deepfake Detector [6.427063076424032]
我々は、ディープフェイク検出タスクは、ユーザーが毎日大量のビデオを視聴するスクリーニングタスクとみなすべきであると論じている。
アップロードされたビデオのほんの一部だけがディープフェイクであることは明らかなので、検出性能をコストに敏感な方法で測定する必要がある。
論文 参考訳(メタデータ) (2020-12-08T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。