論文の概要: $h$-control: Training-Free Camera Control via Block-Conditional Gibbs Refinement
- arxiv url: http://arxiv.org/abs/2605.11871v2
- Date: Sat, 16 May 2026 12:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.702381
- Title: $h$-control: Training-Free Camera Control via Block-Conditional Gibbs Refinement
- Title(参考訳): $h$-control: Block-Conditional Gibbs Refinementによるトレーニング不要カメラコントロール
- Authors: Yuzhu Wang, Xi Ye, Duo Su, Yangyang Xu, Jun Zhu,
- Abstract要約: textbf$h$-controlは、トレーニングフリーでトレーニングベースの7つの競合相手に対して最高のFVDを達成する。
RealEstate10KとDAVISでは、textbf$h$-controlは7つのトレーニングフリーおよびトレーニングベース競合相手に対して最高のFVDを達成している。
- 参考スコア(独自算出の注目度): 47.751369359301236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free camera control for pretrained flow-matching video generators is a partial-observation inverse problem: a depth-warped guidance video supplies noisy evidence on a subset of latent sites, which the sampler must reconcile with the pretrained prior. Existing methods struggle to balance the trade-off between trajectory adherence and visual quality and the heuristic guidance-strength tuning lacks robustness. We propose \textbf{$h$-control}, which resolves this dilemma through a structural change to the sampler: each outer hard-replacement guidance step is augmented with an inner-loop \emph{block-conditional pseudo-Gibbs refinement} on the unobserved complement at the same noise level, with provable convergence to the partial-observation conditional data law. To accelerate convergence on high-dimensional video latents, we exploit their conditional locality, partitioning the unobserved complement into 3D patches, each tracked by a custom mixing indicator that adaptively freezes converged patches. On RealEstate10K and DAVIS, \textbf{$h$-control} attains the best FVD against all seven training-free and training-based competitors, outperforming every training-free baseline on every reported metric.
- Abstract(参考訳): プレトレーニング済みフローマッチングビデオジェネレータのためのトレーニング不要カメラ制御は、部分的観測逆問題である。
既存の手法では、軌道の定着と視覚的品質のトレードオフのバランスがとれず、ヒューリスティックな指導力のチューニングは堅牢性に欠ける。
本稿では,このジレンマをサンプルに対する構造的変化によって解決する「textbf{$h$-control}」を提案する。
高次元ビデオ潜伏剤の収束を早めるために、それらの条件的局所性を利用して、観測されていない補体を3Dパッチに分割し、それぞれが、収束パッチを適応的に凍結するカスタムミキシングインジケータによって追跡する。
RealEstate10KとDAVISでは、 \textbf{$h$-control} は7つのトレーニングフリーおよびトレーニングベースコンペティターに対して最高のFVDを獲得し、レポートされたメトリック毎にトレーニングフリーのベースラインを上回っている。
関連論文リスト
- SphereVAD: Training-Free Video Anomaly Detection via Geodesic Inference on the Unit Hypersphere [90.85001795656633]
ビデオ異常検出(VAD)は、トリミングされていない監視ビデオの通常のパターンから逸脱するイベントを自動的に識別することを目的としている。
SphereVADはトレーニング不要でゼロショットのVADフレームワークで、単位超球面上の準比測地線推定をvon Mises-Fisher (vMF) と再放送する。
論文 参考訳(メタデータ) (2026-05-08T16:57:38Z) - Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances [8.618483849755604]
オーバーヘッドマニピュレータを備えたドローンは、検査、メンテナンス、コンタクトベースのインタラクションにユニークな機能を提供する。
ドローンとそのマニピュレータの動作は強く結びついており、風や制御の欠陥による小さな姿勢の変化でさえ、エンドエフェクターを意図した経路から遠ざける。
変換器をベースとしたDouble Deep Q Learning (DDQN) を用いた強化学習フレームワークを開発した。
これにより、コントローラは実際のモデル上でこれらのアクションを直接実行するのではなく、シミュレーションされたロールアウトを通じてエンドエフェクタの動きを予測できる。
論文 参考訳(メタデータ) (2026-03-27T17:08:40Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment [27.352639822596146]
クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T04:42:30Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance [17.295532380360992]
WorldForgeは3つの密結合モジュールからなるトレーニング不要の推論時間フレームワークである。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、様々な3D/4Dタスクに適用可能である。
論文 参考訳(メタデータ) (2025-09-18T16:40:47Z) - Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback [1.7749342709605145]
ControlNetは補助的なコンディショニングモジュールを導入することでこの問題に対処する。
ControlNet++は、最後のdenoisingステップにのみ適用されるサイクル一貫性損失を通じて、アライメントをさらに洗練する。
本研究では,すべての拡散ステップに空間的整合性を持たせるためのトレーニング戦略であるInnerControlを提案する。
論文 参考訳(メタデータ) (2025-07-03T05:25:53Z) - DUT: Learning Video Stabilization by Simply Watching Unstable Videos [86.88635774560017]
本稿では,Deep Unsupervised Trajectory-based stabilization framework (DUT)を提案する。
DUTは、教師なしのディープラーニング方式で軌道を明示的に推定し、滑らかにすることで、不安定なビデオを安定化する最初の試みである。
公開ベンチマーク実験の結果、DUTは定性的にも量的にも代表的最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-11-30T06:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。