論文の概要: Simple Visual Artifact Detection in Sora-Generated Videos
- arxiv url: http://arxiv.org/abs/2504.21334v1
- Date: Wed, 30 Apr 2025 05:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:21:20.03655
- Title: Simple Visual Artifact Detection in Sora-Generated Videos
- Title(参考訳): ソラ生成ビデオにおける簡易な視覚アーチファクト検出
- Authors: Misora Sugiyama, Hirokatsu Kataoka,
- Abstract要約: 本研究では,Sora生成ビデオで頻繁に発見・報告される視覚的アーティファクトについて検討する。
4種類の共通アーティファクトラベルを対象とするマルチラベル分類フレームワークを提案する。
ResNet-50で訓練された最高の性能モデルは、平均的なマルチラベル分類精度94.14%を達成した。
- 参考スコア(独自算出の注目度): 9.991747596111011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The December 2024 release of OpenAI's Sora, a powerful video generation model driven by natural language prompts, highlights a growing convergence between large language models (LLMs) and video synthesis. As these multimodal systems evolve into video-enabled LLMs (VidLLMs), capable of interpreting, generating, and interacting with visual content, understanding their limitations and ensuring their safe deployment becomes essential. This study investigates visual artifacts frequently found and reported in Sora-generated videos, which can compromise quality, mislead viewers, or propagate disinformation. We propose a multi-label classification framework targeting four common artifact label types: label 1: boundary / edge defects, label 2: texture / noise issues, label 3: movement / joint anomalies, and label 4: object mismatches / disappearances. Using a dataset of 300 manually annotated frames extracted from 15 Sora-generated videos, we trained multiple 2D CNN architectures (ResNet-50, EfficientNet-B3 / B4, ViT-Base). The best-performing model trained by ResNet-50 achieved an average multi-label classification accuracy of 94.14%. This work supports the broader development of VidLLMs by contributing to (1) the creation of datasets for video quality evaluation, (2) interpretable artifact-based analysis beyond language metrics, and (3) the identification of visual risks relevant to factuality and safety.
- Abstract(参考訳): OpenAIのSoraは、自然言語プロンプトによって駆動される強力なビデオ生成モデルで、大規模言語モデル(LLM)とビデオ合成の収束が拡大している。
これらのマルチモーダルシステムはビデオ対応LLM(VidLLMs)へと進化し、視覚的コンテンツを解釈し、生成し、相互作用し、それらの制限を理解し、安全な配置が不可欠である。
本研究は, 品質を損なうこと, 視聴者を誤解させること, 偽情報を広めることが可能な, Sora 生成ビデオで頻繁に発見され, 報告される視覚的アーティファクトについて検討する。
本稿では,ラベル1:境界/エッジ欠陥,ラベル2:テクスチャ/ノイズ問題,ラベル3:移動/関節異常,ラベル4:オブジェクトミスマッチ/消失の4種類の共通アーティファクトラベルを対象とするマルチラベル分類フレームワークを提案する。
15のSora生成ビデオから抽出した300フレームのデータセットを用いて,複数の2D CNNアーキテクチャ(ResNet-50,EfficientNet-B3 / B4, ViT-Base)をトレーニングした。
ResNet-50で訓練された最高の性能モデルは、平均的なマルチラベル分類精度94.14%を達成した。
本研究は,(1)映像品質評価のためのデータセットの作成,(2)言語メトリクスを超えた解釈可能なアーティファクトベース分析,(3)事実性と安全性に関連する視覚的リスクの同定に寄与することにより,VidLLMの幅広い開発を支援する。
関連論文リスト
- Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models [24.33545993881271]
本稿では,多種多様な大規模テキスト・ビデオ(T2V)モデル間の幻覚を検出するために設計された,新たな統合フレームワークを提案する。
本フレームワークは幻覚現象の包括的解析に基づいて構築され,映像コンテンツにおけるその表現に基づいて分類する。
SoraDetectorは、一貫性、静的および動的幻覚の堅牢で定量化された尺度を提供する。
論文 参考訳(メタデータ) (2024-05-07T10:39:14Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - LGDN: Language-Guided Denoising Network for Video-Language Modeling [30.99646752913056]
本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
論文 参考訳(メタデータ) (2022-09-23T03:35:59Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。