Fugu-MT 論文翻訳(概要): Tempered Self-Similarity Alignment for Physically Plausible Video Generation

論文の概要: Tempered Self-Similarity Alignment for Physically Plausible Video Generation

arxiv url: http://arxiv.org/abs/2605.24962v1
Date: Sun, 24 May 2026 09:28:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.548862
Title: Tempered Self-Similarity Alignment for Physically Plausible Video Generation
Title（参考訳）: 物理的にプラズブルなビデオ生成のためのテンポ型自己相似アライメント
Authors: Manjin Kim, Suha Kwak, Minsu Cho,
Abstract要約: 自己相似性損失は確率的対応に変化し、映像生成モデルを動的に変化する領域の視覚基盤モデルと対応付けるよう訓練する。本手法は,映像生成における関係知識の伝達の有効性を検証し,多種多様な相互作用シナリオにおける物理的妥当性の大幅な向上を示す。
参考スコア（独自算出の注目度）: 83.40337664171939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite remarkable advances in video generative models, they still struggle to generate physically realistic videos, frequently exhibiting appearance drift, implausible motion, and temporal inconsistencies. In this work, we address this limitation by transferring relational knowledge encoded in spatio-temporal self-similarity (STSS) from visual foundation models into video generative models. STSS represents pairwise similarities among features across space and time, revealing the relational structure of how objects interact with other entities throughout a video, effectively capturing real-world dynamics, including object motion and semantic transformations. To transfer this relational knowledge, we propose Tempered Self-similarity Alignment (TSA) loss, which transforms STSS into probabilistic correspondence distributions and trains the video generative model to align its correspondence distributions with those of the visual foundation model on dynamically changing regions. Evaluated on VideoPhy and VideoPhy2 benchmarks, our method demonstrates substantial improvements in physical plausibility across diverse interaction scenarios, validating the effectiveness of transferring relational knowledge for physically realistic video generation.
Abstract（参考訳）: ビデオ生成モデルの顕著な進歩にもかかわらず、彼らは物理的に現実的なビデオの生成に苦慮し、しばしば外見の漂流、不明瞭な動き、時間的不整合を示す。本研究では,視覚基盤モデルから映像生成モデルへ,時空間自己相似性(STSS)で符号化された関係知識を変換することで,この制限に対処する。 STSSは、空間と時間にまたがる機能間のペアワイズな類似性を表現し、ビデオを通してオブジェクトが他のエンティティとどのように相互作用するかという関係構造を明らかにし、オブジェクトの動きやセマンティックトランスフォーメーションを含む現実のダイナミクスを効果的にキャプチャする。この関係知識を伝達するために,STSSを確率的対応分布に変換し,その対応分布を動的に変化する領域の視覚的基盤モデルと整合させるためにビデオ生成モデルを訓練する,TSA損失(Tempered Self-similarity Alignment)を提案する。 VideoPhy と VideoPhy2 のベンチマークを用いて,様々なインタラクションシナリオにおける物理的妥当性の大幅な向上を実証し,リレーショナル知識を物理的にリアルなビデオ生成に伝達するの有効性を検証した。

関連論文リスト

PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。 i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文参考訳（メタデータ） (2026-04-30T17:53:03Z)
Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos [52.00944453189226]
時間的プリミティブをモデルに教えるポストトレーニングフレームワークであるSynRLを紹介する。時間的理解を短期的原始(速度,方向)と長期的認知的原始に分解する。単純な幾何学的形状のトレーニングにもかかわらず、SynRLは時間的グラウンド、複雑な推論、一般的なビデオ理解にまたがる15のベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2026-03-18T13:10:47Z)
AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文参考訳（メタデータ） (2026-02-04T15:42:58Z)
Seeing Clearly, Forgetting Deeply: Revisiting Fine-Tuned Video Generators for Driving Simulation [17.301302433153467]
既存の微調整ビデオ生成手法が構造化運転データセットに与える影響について検討する。視覚的忠実度は向上するが,動的要素のモデリングにおける空間的精度は低下する可能性があることを示す。
論文参考訳（メタデータ） (2025-08-22T16:35:19Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Relational Self-Attention: What's Missing in Attention for Video Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2021-11-02T15:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。