Fugu-MT 論文翻訳(概要): Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

論文の概要: Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

arxiv url: http://arxiv.org/abs/2604.09057v1
Date: Fri, 10 Apr 2026 07:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.749988
Title: Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence
Title（参考訳）: Tora3:物理コヒーレンスによる軌道誘導型オーディオビデオ生成
Authors: Junchao Liao, Zhenghao Zhang, Xiangyu Meng, Litao Li, Ziying Zhang, Siyu Zhu, Long Qin, Weizhi Wang,
Abstract要約: Tora3は、物体軌跡を共有キネマティック先行として使用することにより、物理的コヒーレンスを改善する軌道誘導型AV生成フレームワークである。具体的には、トラジェクティブ・アラインメントの動画表現と、トラジェクトリから導出される2次運動状態によって駆動されるキネマティック・オーディオアライメント・モジュールと、ハイブリッドフローマッチング・スキームを設計する。大規模な実験により、Tora3は強力なオープンソースベースラインよりも動きリアリズム、動き音の同期、全体的なAV生成品質を改善していることが示された。
参考スコア（独自算出の注目度）: 16.685702628989212
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-video (AV) generation has recently made strong progress in perceptual quality and multimodal coherence, yet generating content with plausible motion-sound relations remains challenging. Existing methods often produce object motions that are visually unstable and sounds that are only loosely aligned with salient motion or contact events, largely because they lack an explicit motion-aware structure shared by video and audio generation. We present Tora3, a trajectory-guided AV generation framework that improves physical coherence by using object trajectories as a shared kinematic prior. Rather than treating trajectories as a video-only control signal, Tora3 uses them to jointly guide visual motion and acoustic events. Specifically, we design a trajectory-aligned motion representation for video, a kinematic-audio alignment module driven by trajectory-derived second-order kinematic states, and a hybrid flow matching scheme that preserves trajectory fidelity in trajectory-conditioned regions while maintaining local coherence elsewhere. We further curate PAV, a large-scale AV dataset emphasizing motion-relevant patterns with automatically extracted motion annotations. Extensive experiments show that Tora3 improves motion realism, motion-sound synchronization, and overall AV generation quality over strong open-source baselines.
Abstract（参考訳）: オーディオビデオ(AV)生成は近年,知覚品質とマルチモーダルコヒーレンスにおいて大きな進歩を遂げている。既存の方法は、しばしば視覚的に不安定な物体の動きを生成し、映像や音声生成によって共有される明示的な動き認識構造が欠如していることから、静かな動きや接触イベントと緩やかに一致した音のみを発生する。本稿では,物体軌跡を共有キネマティック先行として利用することにより,物理的コヒーレンスを向上させるトラジェクトリ誘導型AV生成フレームワークであるTora3を提案する。トラジェクトリーをビデオのみの制御信号として扱うのではなく、Tora3は視覚運動と音響イベントを共同で誘導する。具体的には、トラジェクティブ・アラインメントの動画表現と、トラジェクトリから誘導される2階キネマティック状態によって駆動されるキネマティック・オーディオアライメント・モジュールと、トラジェクティブ・コンディショニングされた領域におけるトラジェクトリの忠実性を維持しながら、他の領域での局所コヒーレンスを維持しながら、ハイブリッドフローマッチング・スキームを設計する。さらに、自動抽出された動きアノテーションを用いて、動き関連パターンを強調する大規模なAVデータセットであるPAVをキュレートする。大規模な実験により、Tora3は強力なオープンソースベースラインよりも動きリアリズム、動き音の同期、全体的なAV生成品質を改善していることが示された。

関連論文リスト

DragMesh: Interactive 3D Generation Made Easy [12.832539752284466]
DragMeshはリアルタイムインタラクティブな3Dコーディネーションのための堅牢なフレームワークである。私たちのコアコントリビューションは、新しい分離されたキネマティック推論とモーションジェネレーションフレームワークです。
論文参考訳（メタデータ） (2025-12-06T13:10:44Z)
DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis [15.304037069236536]
DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。唇の動き、頭部のポーズ、視線を高度に制御する。
論文参考訳（メタデータ） (2025-10-12T15:10:33Z)
Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。 Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文参考訳（メタデータ） (2025-09-08T14:21:45Z)
Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [86.099855111676]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文参考訳（メタデータ） (2025-04-20T07:29:42Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文参考訳（メタデータ） (2025-02-27T08:21:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。