論文の概要: HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly
- arxiv url: http://arxiv.org/abs/2507.19924v2
- Date: Fri, 01 Aug 2025 12:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 12:04:25.388003
- Title: HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly
- Title(参考訳): HumanSAM:人間の空間、外観、運動異常における人間中心の偽ビデオの分類
- Authors: Chang Liu, Yunfan Ye, Fan Zhang, Qingyang Zhou, Yuchuan Luo, Zhiping Cai,
- Abstract要約: HumanSAMは、人間中心のフォージェリーを、生成されたコンテンツでよく見られる3つの異なる種類のアーティファクトに分類することを目的としている。
HumanSAMは、バイナリとマルチクラスの偽造分類の両方において、最先端の手法と比較して有望な結果をもたらす。
- 参考スコア(独自算出の注目度): 15.347208661111198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous synthesized videos from generative models, especially human-centric ones that simulate realistic human actions, pose significant threats to human information security and authenticity. While progress has been made in binary forgery video detection, the lack of fine-grained understanding of forgery types raises concerns regarding both reliability and interpretability, which are critical for real-world applications. To address this limitation, we propose HumanSAM, a new framework that builds upon the fundamental challenges of video generation models. Specifically, HumanSAM aims to classify human-centric forgeries into three distinct types of artifacts commonly observed in generated content: spatial, appearance, and motion anomaly. To better capture the features of geometry, semantics and spatiotemporal consistency, we propose to generate the human forgery representation by fusing two branches of video understanding and spatial depth. We also adopt a rank-based confidence enhancement strategy during the training process to learn more robust representation by introducing three prior scores. For training and evaluation, we construct the first public benchmark, the Human-centric Forgery Video (HFV) dataset, with all types of forgeries carefully annotated semi-automatically. In our experiments, HumanSAM yields promising results in comparison with state-of-the-art methods, both in binary and multi-class forgery classification.
- Abstract(参考訳): 生成モデル、特に現実的な人間の行動をシミュレートする人間中心のビデオは、人間の情報セキュリティと認証に重大な脅威をもたらす。
バイナリ・フォージェリ・ビデオ検出の進歩は進んでいるが、フォージェリ・タイプに関するきめ細かい理解の欠如は、信頼性と解釈可能性の両方に関する懸念を提起している。
この制限に対処するため,ビデオ生成モデルの基本課題に基づいた新しいフレームワークであるHumanSAMを提案する。
特にHumanSAMは、人間中心の偽造品を、生成されたコンテンツ(空間、外観、運動異常)でよく見られる3つの異なる種類の人工物に分類することを目的としている。
幾何学,意味論,時空間整合性の特徴をよりよく把握するために,映像理解と空間深度を融合させて人間の偽造表現を生成することを提案する。
また,3点の事前スコアを導入して,より堅牢な表現を学習するために,ランクに基づく信頼度向上戦略を採用した。
トレーニングと評価のために,我々はHuman-centric Forgery Video(HFV)データセットという最初の公開ベンチマークを構築した。
我々の実験では、HumanSAMは2進法と複数クラスの偽造分類において最先端の手法と比較して有望な結果をもたらす。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Video Anomaly Detection with Contours - A Study [24.525564527855092]
本研究では,2次元輪郭を用いた正常人の動作パターンの学習の可能性について検討した。
以上の結果から,Poseを用いたビデオ異常検出の新たな視点は今後の研究にとって有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2025-03-25T12:11:50Z) - HumanGif: Single-View Human Diffusion with Generative Prior [25.516544735593087]
本稿では, 先行生成に基づく単一ビューヒト拡散モデルであるHumanGifを提案する。
具体的には、単一ビューに基づく3次元人間の新しいビューを定式化し、単一ビュー条件のヒト拡散過程として合成する。
我々は,HumanGifが最高の知覚性能を達成し,新しい視点とポーズ合成の一般化性が向上したことを示す。
論文 参考訳(メタデータ) (2025-02-17T17:55:27Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Human-Aware Motion Deblurring [197.53076361425363]
本稿では、前景(FG)と背景(BG)との間に動きのぼかしをアンタングルする人間認識型デブロアリングモデルを提案する。
提案モデルは三分岐エンコーダデコーダアーキテクチャに基づいている。
提案モデルには, エンド・ツー・エンド方式で, 監視, ヒューマン・アウェア・アテンション・メカニズムが組み込まれている。
論文 参考訳(メタデータ) (2020-01-19T12:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。