Fugu-MT 論文翻訳(概要): Do Joint Audio-Video Generation Models Understand Physics?

論文の概要: Do Joint Audio-Video Generation Models Understand Physics?

arxiv url: http://arxiv.org/abs/2605.07061v1
Date: Fri, 08 May 2026 00:14:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.690624
Title: Do Joint Audio-Video Generation Models Understand Physics?
Title（参考訳）: ジョイント・オーディオ・ビデオ・ジェネレーション・モデルは物理を理解するか?
Authors: Zijun Cui, Xiulong Liu, Hao Fang, Mingwei Xu, Jiageng Liu, Zexin Xu, Weiguo Pian, Shijian Deng, Feiyu Du, Chenming Ge, Yapeng Tian,
Abstract要約: 共同オーディオビデオ生成モデルは、プロのプロダクション品質に急速に近づいている。音と視覚の物理を理解しているのか、それとも、現実の一貫性に反するプラウチブルな音やフレームを生成するだけなのか? AV-Phys Benchは、共同オーディオビデオ生成における物理コモンセンスを評価するためのベンチマークである。
参考スコア（独自算出の注目度）: 49.44016960193229
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Joint audio-video generation models are rapidly approaching professional production quality, raising a central question: do they understand audio-visual physics, or merely generate plausible sounds and frames that violate real-world consistency? We introduce AV-Phys Bench, a benchmark for evaluating physical commonsense in joint audio-video generation. AV-Phys Bench tests models across three scene categories: Steady State, Event Transition, and Environment Transition. It covers physics-grounded subcategories drawn from real-world scenes, plus Anti-AV-Physics prompts that deliberately request physically inconsistent audio-video behavior. Each generation is evaluated along five dimensions: visual semantic adherence, audio semantic adherence, visual physical commonsense, audio physical commonsense, and cross-modal physical commonsense. Across three proprietary and four open-source models, we find that Seedance 2.0 performs best overall, but all models remain far from robust physical understanding. Performance drops sharply on event-driven and environment-driven transitions, and even strong proprietary systems collapse on Anti-AV-Physics prompts. We further introduce AV-Phys Agent, a ReAct-style evaluator that combines a multimodal language model with deterministic acoustic measurement tools, producing rankings that closely align with human ratings. Our results identify cross-modal physical consistency and transition-driven scene dynamics as key open challenges for joint audio-video generation.
Abstract（参考訳）: オーディオ・ビデオ生成モデルは、プロのプロダクション品質に急速に近づきつつある。オーディオ・ビジュアル・物理を理解しているのか、それとも、現実の一貫性に反する可視音やフレームを生成するだけなのか? AV-Phys Benchは、共同オーディオビデオ生成における物理コモンセンスを評価するためのベンチマークである。 AV-Phys Bench氏は、定常状態、イベント遷移、環境遷移の3つのカテゴリでモデルをテストしている。現実世界のシーンから引き出された物理地上のサブカテゴリと、物理的に一貫性のないオーディオビデオの振る舞いを意図的に要求するアンチAV-Physicsのプロンプトをカバーしている。各世代は、視覚的セマンティック・アテンデンス、音声的セマンティック・アテンデンス、視覚的物理的コモンセンス、オーディオ的物理的コモンセンス、およびクロスモーダル物理コモンセンスの5つの次元に沿って評価される。プロプライエタリな3つのモデルと4つのオープンソースモデルの中で、Seedance 2.0は全体として最高のパフォーマンスを発揮していますが、すべてのモデルは堅牢な物理的理解からは程遠いままです。イベント駆動および環境駆動の移行ではパフォーマンスが大幅に低下し、アンチAV-物理学のプロンプトでは強力なプロプライエタリなシステムが崩壊する。さらに,マルチモーダル言語モデルと決定論的音響測定ツールを組み合わせたReAct-style EvaluatorであるAV-Phys Agentを導入する。本研究は,音声・ビデオ共同生成の鍵となるオープンな課題として,モーダルな物理的整合性とトランジッション駆動のシーンダイナミクスを同定した。

関連論文リスト

PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。 i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文参考訳（メタデータ） (2026-04-30T17:53:03Z)
Exploring Physical Intelligence Emergence via Omni-Modal Architecture and Physical Data Engine [50.62040226184694]
我々はOmniFysicsについて紹介する。OmniFysicsは、画像、音声、ビデオ、テキスト間の理解を統一するコンパクトなオムニモーダルモデルである。明示的な物理知識を注入するために、2つのコンポーネントからなる物理データエンジンを構築します。実験は、標準マルチモーダルベンチマークにおける競合性能を示し、物理指向評価の結果を改善した。
論文参考訳（メタデータ） (2026-02-05T14:04:51Z)
PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation [63.3417467957431]
テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、現実的なオーディオ・ビジュアルコンテンツを要求する幅広いアプリケーションを支える。我々は,既存のT2AVモデルの音波物理接地能力を評価するために設計された,難易度の高い音波物理感度ベンチマークであるPhyAVBenchを紹介する。主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは、音生成の基礎となる物理的メカニズムに対するモデルの理解を明確に評価している。
論文参考訳（メタデータ） (2025-12-30T05:22:31Z)
VABench: A Comprehensive Benchmark for Audio-Video Generation [22.00633729850902]
VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。 VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
論文参考訳（メタデータ） (2025-12-10T03:57:29Z)
PAVAS: Physics-Aware Video-to-Audio Synthesis [58.746986798623084]
本稿では、物理推論を潜伏拡散に基づくV2A生成に組み込む手法であるPAVAS(Physical-Aware Video-to-Audio Synthesis)を提案する。 PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることを示す。
論文参考訳（メタデータ） (2025-12-09T06:28:50Z)
PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-11-06T02:40:57Z)
Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。 PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文参考訳（メタデータ） (2025-07-21T17:30:46Z)
Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。 DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。