論文の概要: What If : Understanding Motion Through Sparse Interactions
- arxiv url: http://arxiv.org/abs/2510.12777v1
- Date: Tue, 14 Oct 2025 17:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.43262
- Title: What If : Understanding Motion Through Sparse Interactions
- Title(参考訳): スパースインタラクションによる動きの理解
- Authors: Stefan Andreas Baumann, Nick Stracke, Timy Phan, Björn Ommer,
- Abstract要約: Flow Poke Transformer (FPT) は局所運動の分布を直接予測するフレームワークである。
FPTは「ポークス」と呼ばれるスパース相互作用に条件付けされる
- 参考スコア(独自算出の注目度): 23.795217304737548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the dynamics of a physical scene involves reasoning about the diverse ways it can potentially change, especially as a result of local interactions. We present the Flow Poke Transformer (FPT), a novel framework for directly predicting the distribution of local motion, conditioned on sparse interactions termed "pokes". Unlike traditional methods that typically only enable dense sampling of a single realization of scene dynamics, FPT provides an interpretable directly accessible representation of multi-modal scene motion, its dependency on physical interactions and the inherent uncertainties of scene dynamics. We also evaluate our model on several downstream tasks to enable comparisons with prior methods and highlight the flexibility of our approach. On dense face motion generation, our generic pre-trained model surpasses specialized baselines. FPT can be fine-tuned in strongly out-of-distribution tasks such as synthetic datasets to enable significant improvements over in-domain methods in articulated object motion estimation. Additionally, predicting explicit motion distributions directly enables our method to achieve competitive performance on tasks like moving part segmentation from pokes which further demonstrates the versatility of our FPT. Code and models are publicly available at https://compvis.github.io/flow-poke-transformer.
- Abstract(参考訳): 物理的なシーンのダイナミクスを理解するには、特に局所的な相互作用の結果、それが潜在的に変化する可能性のある様々な方法を推論する必要がある。
本稿では,局所的な動きの分布を直接予測する新しいフレームワークであるFlow Poke Transformer(FPT)について述べる。
通常、シーンダイナミクスの単一実現を厳密にサンプリングすることしかできない伝統的な方法とは異なり、FPTは、解釈可能な直接アクセス可能なマルチモーダルシーンモーションの表現、物理的相互作用への依存、シーンダイナミクスの不確実性を提供する。
また、従来の手法との比較を可能にするために、いくつかのダウンストリームタスクでモデルを評価し、アプローチの柔軟性を強調します。
濃密な顔の動き生成について、我々の一般的な事前学習モデルは、特殊ベースラインを超越する。
FPTは、合成データセットのような分散の強いタスクにおいて微調整が可能であり、明瞭な物体の動き推定におけるドメイン内手法よりも大幅に改善される。
さらに、明示的な動き分布の予測により、ポークから部分分割を移動させるようなタスクにおいて、直接的に競合性能を達成することができ、FPTの汎用性をさらに証明することができる。
コードとモデルはhttps://compvis.github.io/flow-poke-transformer.comで公開されている。
関連論文リスト
- Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Flexible Motion In-betweening with Diffusion Models [16.295323675781184]
比較によって導かれる多様な人間の動きを生成する際の拡散モデルの可能性について検討する。
従来のインベントワイニング法とは異なり、精密かつ多様な動作を生成できる単純な統一モデルを提案する。
テキスト条件付きHumanML3Dデータセット上でのCondMDIの性能を評価する。
論文 参考訳(メタデータ) (2024-05-17T23:55:51Z) - JointMotion: Joint Self-Supervision for Joint Motion Prediction [10.44846560021422]
JointMotionは、自動運転車における関節運動予測のための自己教師付き事前訓練手法である。
提案手法は,Wayformer,HPTR,Scene Transformerの各モデルにおける最終変位誤差を,それぞれ3%,8%,12%削減する。
論文 参考訳(メタデータ) (2024-03-08T17:54:38Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - EM-driven unsupervised learning for efficient motion segmentation [3.5232234532568376]
本稿では,光学的流れからの動作分割のためのCNNに基づく完全教師なし手法を提案する。
本研究では,移動分割ニューラルネットワークの損失関数とトレーニング手順を活用するために,期待最大化(EM)フレームワークを利用する。
提案手法は, 教師なし手法よりも優れ, 効率的である。
論文 参考訳(メタデータ) (2022-01-06T14:35:45Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。