Fugu-MT 論文翻訳(概要): HECTOR: Hybrid Editable Compositional Object References for Video Generation

論文の概要: HECTOR: Hybrid Editable Compositional Object References for Video Generation

arxiv url: http://arxiv.org/abs/2603.08850v1
Date: Mon, 09 Mar 2026 19:09:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.781942
Title: HECTOR: Hybrid Editable Compositional Object References for Video Generation
Title（参考訳）: HECTOR:ビデオ生成のためのハイブリッド編集可能な合成オブジェクト参照
Authors: Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma,
Abstract要約: HECTORは、きめ細かい構成制御を可能にする生成パイプラインである。ハイブリッドリファレンスコンディショニングをサポートし、静的イメージや動的ビデオによって生成を同時にガイドすることができる。既存の手法に比べて優れた視覚的品質、より強力な参照保存、動き制御性の向上を実現している。
参考スコア（独自算出の注目度）: 23.216951224722127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world videos naturally portray complex interactions among distinct physical objects, effectively forming dynamic compositions of visual elements. However, most current video generation models synthesize scenes holistically and therefore lack mechanisms for explicit compositional manipulation. To address this limitation, we propose HECTOR, a generative pipeline that enables fine-grained compositional control. In contrast to prior methods,HECTOR supports hybrid reference conditioning, allowing generation to be simultaneously guided by static images and/or dynamic videos. Moreover, users can explicitly specify the trajectory of each referenced element, precisely controlling its location, scale, and speed (see Figure1). This design allows the model to synthesize coherent videos that satisfy complex spatiotemporal constraints while preserving high-fidelity adherence to references. Extensive experiments demonstrate that HECTOR achieves superior visual quality, stronger reference preservation, and improved motion controllability compared with existing approaches.
Abstract（参考訳）: 実世界のビデオは、異なる物理的オブジェクト間の複雑な相互作用を自然に表現し、視覚要素の動的構成を効果的に形成する。しかし、現在のビデオ生成モデルは、シーンを水平に合成するので、明示的な構成操作のメカニズムが欠如している。この制限に対処するため,細粒度構成制御が可能な生成パイプラインであるHECTORを提案する。従来の手法とは対照的に、HECTORはハイブリッドリファレンスコンディショニングをサポートしており、静的画像やダイナミックビデオによって生成を同時にガイドすることができる。さらに、ユーザーは参照された各要素の軌跡を明示的に指定し、その位置、スケール、速度を正確に制御することができる(図1参照)。この設計により、複雑な時空間制約を満たすコヒーレントなビデオの合成が可能であり、参照への高忠実な付着を保っている。広汎な実験により、HECTORは既存のアプローチに比べて優れた視覚的品質、より強力な参照保存、そして運動制御性の向上を実現している。

関連論文リスト

Compositional Video Synthesis by Temporal Object-Centric Learning [3.2228025627337864]
本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
論文参考訳（メタデータ） (2025-07-28T14:11:04Z)
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文参考訳（メタデータ） (2024-06-12T21:41:32Z)
VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文参考訳（メタデータ） (2023-06-03T06:29:02Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。