論文の概要: Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2405.04180v1
- Date: Tue, 7 May 2024 10:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:29:58.645547
- Title: Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models
- Title(参考訳): Sora Detector:大規模テキスト・ビデオモデルのための統一幻覚検出
- Authors: Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang, Zhan Qin, Kui Ren,
- Abstract要約: 本稿では,多種多様な大規模テキスト・ビデオ(T2V)モデル間の幻覚を検出するために設計された,新たな統合フレームワークを提案する。
本フレームワークは幻覚現象の包括的解析に基づいて構築され,映像コンテンツにおけるその表現に基づいて分類する。
SoraDetectorは、一貫性、静的および動的幻覚の堅牢で定量化された尺度を提供する。
- 参考スコア(独自算出の注目度): 24.33545993881271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement in text-to-video (T2V) generative models has enabled the synthesis of high-fidelity video content guided by textual descriptions. Despite this significant progress, these models are often susceptible to hallucination, generating contents that contradict the input text, which poses a challenge to their reliability and practical deployment. To address this critical issue, we introduce the SoraDetector, a novel unified framework designed to detect hallucinations across diverse large T2V models, including the cutting-edge Sora model. Our framework is built upon a comprehensive analysis of hallucination phenomena, categorizing them based on their manifestation in the video content. Leveraging the state-of-the-art keyframe extraction techniques and multimodal large language models, SoraDetector first evaluates the consistency between extracted video content summary and textual prompts, then constructs static and dynamic knowledge graphs (KGs) from frames to detect hallucination both in single frames and across frames. Sora Detector provides a robust and quantifiable measure of consistency, static and dynamic hallucination. In addition, we have developed the Sora Detector Agent to automate the hallucination detection process and generate a complete video quality report for each input video. Lastly, we present a novel meta-evaluation benchmark, T2VHaluBench, meticulously crafted to facilitate the evaluation of advancements in T2V hallucination detection. Through extensive experiments on videos generated by Sora and other large T2V models, we demonstrate the efficacy of our approach in accurately detecting hallucinations. The code and dataset can be accessed via GitHub.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成モデルの急速な進歩により,テキスト記述による高忠実度映像コンテンツの合成が可能となった。
このような大きな進歩にもかかわらず、これらのモデルは幻覚の影響を受けやすく、入力テキストに矛盾する内容を生成し、信頼性と実践的な展開に挑戦する。
この重要な問題に対処するために,最先端のSoraモデルを含む多種多様な大規模T2Vモデルの幻覚を検出するために設計された,新しい統合フレームワークであるSoraDetectorを紹介した。
本フレームワークは幻覚現象の包括的解析に基づいて構築され,映像コンテンツにおけるその表現に基づいて分類する。
SoraDetectorは、最先端のキーフレーム抽出技術とマルチモーダルな大規模言語モデルを活用して、抽出したビデオコンテンツ要約とテキストプロンプトの一貫性を評価し、次いでフレームから静的および動的知識グラフ(KG)を構築し、単一のフレームとフレーム間の幻覚を検出する。
Sora Detectorは、一貫性、静的および動的幻覚の堅牢で定量化された尺度を提供する。
さらに,幻覚検出プロセスを自動化するSora Detector Agentを開発し,入力ビデオ毎に完全な映像品質レポートを生成する。
最後に,新しいメタ評価ベンチマークT2VHaluBenchを提案する。
ソラや他の大型T2Vモデルによって生成されたビデオに関する広範な実験を通じて,幻覚を正確に検出するためのアプローチの有効性を実証した。
コードとデータセットはGitHubからアクセスすることができる。
関連論文リスト
- ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
本稿では,T2Vモデルによる幻覚映像の大規模テキスト・ビデオベンチマークであるViBeを紹介する。
10個のオープンソースT2Vモデルを用いて,幻覚映像の大規模データセットを開発した。
このベンチマークは、入力プロンプトとより正確に一致したビデオを生成する堅牢なT2Vモデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - OnUVS: Online Feature Decoupling Framework for High-Fidelity Ultrasound
Video Synthesis [34.07625938756013]
ソノグラフィーは、包括的な情報を集めるために対応する動的解剖構造を観察しなければならない。
アメリカのビデオの合成は、この問題に対する有望な解決策になるかもしれない。
我々は,高忠実度USビデオ合成のためのオンライン機能分離フレームワークOnUVSを提案する。
論文 参考訳(メタデータ) (2023-08-16T10:16:50Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。