論文の概要: Face Consistency Benchmark for GenAI Video
- arxiv url: http://arxiv.org/abs/2505.11425v1
- Date: Fri, 16 May 2025 16:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.668479
- Title: Face Consistency Benchmark for GenAI Video
- Title(参考訳): GenAIビデオの顔一貫性ベンチマーク
- Authors: Michal Podstawski, Malgorzata Kudelska, Haohong Wang,
- Abstract要約: 本稿では,AI生成ビデオ中の文字の一貫性を評価し,比較するフレームワークとして,FCB(Face Consistency Benchmark)を提案する。
この研究は、AIビデオ生成技術における文字の一貫性を改善するための重要なステップである。
- 参考スコア(独自算出の注目度): 1.137903861863692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation driven by artificial intelligence has advanced significantly, enabling the creation of dynamic and realistic content. However, maintaining character consistency across video sequences remains a major challenge, with current models struggling to ensure coherence in appearance and attributes. This paper introduces the Face Consistency Benchmark (FCB), a framework for evaluating and comparing the consistency of characters in AI-generated videos. By providing standardized metrics, the benchmark highlights gaps in existing solutions and promotes the development of more reliable approaches. This work represents a crucial step toward improving character consistency in AI video generation technologies.
- Abstract(参考訳): 人工知能によって駆動されるビデオ生成は、動的でリアルなコンテンツを作成することができるように、大幅に進歩している。
しかしながら、ビデオシーケンス間の文字一貫性を維持することは大きな課題であり、現在のモデルは外観や属性のコヒーレンスを確保するのに苦労している。
本稿では,AI生成ビデオ中の文字の一貫性を評価し,比較するフレームワークとして,FCB(Face Consistency Benchmark)を提案する。
標準化されたメトリクスを提供することで、ベンチマークは既存のソリューションのギャップを強調し、より信頼性の高いアプローチの開発を促進する。
この研究は、AIビデオ生成技術における文字の一貫性を改善するための重要なステップである。
関連論文リスト
- ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる
最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。
基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文 参考訳(メタデータ) (2025-02-25T05:20:51Z) - Enhance-A-Video: Better Generated Video for Free [57.620595159855064]
本稿では,DiTをベースとしたビデオのコヒーレンスと品質を高めるためのトレーニング不要な手法を提案する。
我々のアプローチは、リトレーニングや微調整なしに、ほとんどのDiTベースのビデオ生成フレームワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-11T12:22:35Z) - Scalable Framework for Classifying AI-Generated Content Across Modalities [0.0]
本稿では,知覚ハッシュ,類似度測定,擬似ラベル処理を統合したスケーラブルなフレームワークを提案する。
Defactify4データセットの総合評価は、テキストおよび画像分類タスクにおける競合性能を示す。
これらの結果は、生成AIが進化を続けるにつれて、現実世界のアプリケーションに対するフレームワークの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-01T09:28:40Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Advancing Video Quality Assessment for AIGC [17.23281750562252]
本稿では,平均絶対誤差とクロスエントロピー損失を組み合わせ,フレーム間品質の不整合を緩和する新たな損失関数を提案する。
また,モデルの一般化能力を高めるために,敵対的トレーニングを活用しながら,重要なコンテンツを維持するために革新的なS2CNet技術を導入する。
論文 参考訳(メタデータ) (2024-09-23T10:36:22Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。