論文の概要: Human Action CLIPs: Detecting AI-generated Human Motion
- arxiv url: http://arxiv.org/abs/2412.00526v2
- Date: Sun, 22 Jun 2025 18:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.13091
- Title: Human Action CLIPs: Detecting AI-generated Human Motion
- Title(参考訳): AIが生成する人間の動きを検知するヒューマンアクションCLIP
- Authors: Matyas Bohacek, Hany Farid,
- Abstract要約: マルチモーダルなセマンティック埋め込みを用いて,AIによる人間の動作と現実を区別する,効果的でロバストな手法について述べる。
この方法は、7つのテキスト・ツー・ビデオAIモデルと実際の映像のマッチングによって生成される人間のアクションを備えた、カスタムで構築された、ビデオクリップのオープンソースデータセットであるDeepActionに対して評価される。
- 参考スコア(独自算出の注目度): 13.106063755117399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated video generation continues its journey through the uncanny valley to produce content that is increasingly perceptually indistinguishable from reality. To better protect individuals, organizations, and societies from its malicious applications, we describe an effective and robust technique for distinguishing real from AI-generated human motion using multi-modal semantic embeddings. Our method is robust to the types of laundering that typically confound more low- to mid-level approaches, including resolution and compression attacks. This method is evaluated against DeepAction, a custom-built, open-sourced dataset of video clips with human actions generated by seven text-to-video AI models and matching real footage. The dataset is available under an academic license at https://www.huggingface.co/datasets/faridlab/deepaction_v1.
- Abstract(参考訳): AIが生成したビデオ生成は、現実と知覚的に区別できないコンテンツを生み出すために、不気味な谷を旅し続ける。
個人、組織、社会を悪質なアプリケーションからよりよく保護するために、マルチモーダルなセマンティックな埋め込みを用いて、AI生成された人間の動きと現実を区別するための効果的でロバストなテクニックを述べる。
我々の手法は、通常、解像度や圧縮攻撃など、より低レベルから中レベルなアプローチで解決される雷鳴の種類に対して堅牢である。
この方法は、7つのテキスト・ツー・ビデオAIモデルと実際の映像のマッチングによって生成される人間のアクションを備えた、カスタムで構築された、ビデオクリップのオープンソースデータセットであるDeepActionに対して評価される。
データセットは学術ライセンス https://www.huggingface.co/datasets/faridlab/deepaction_v1 で利用可能である。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Chameleon: On the Scene Diversity and Domain Variety of AI-Generated Videos Detection [4.66355848422886]
AI生成ビデオ検出のための既存のデータセットは、多様性、複雑性、リアリズムの限界を示す。
我々は、複数の生成ツールと様々な実ビデオソースを通してビデオを生成する。
同時に、シーンスイッチやダイナミックな視点変化など、ビデオの現実的な複雑さを保ちます。
論文 参考訳(メタデータ) (2025-03-09T13:58:43Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。