論文の概要: Self-Supervised Decomposition, Disentanglement and Prediction of Video
Sequences while Interpreting Dynamics: A Koopman Perspective
- arxiv url: http://arxiv.org/abs/2110.00547v1
- Date: Fri, 1 Oct 2021 17:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 15:49:49.328054
- Title: Self-Supervised Decomposition, Disentanglement and Prediction of Video
Sequences while Interpreting Dynamics: A Koopman Perspective
- Title(参考訳): ダイナミックスを解釈しながらの自己監督的分解, 絡み合い, 映像系列の予測:クープマンの視点から
- Authors: Armand Comas, Sandesh Ghimire, Haolin Li, Mario Sznaier, Octavia Camps
- Abstract要約: 本稿では,動画を移動オブジェクトとその属性に分解する手法を提案し,各オブジェクトのダイナミクスを線形システム識別ツールを用いてモデル化する。
これにより、クープマン作用素 K を用いることで、異なる対象の力学の解釈、操作、外挿が可能になる。
- 参考スコア(独自算出の注目度): 7.297158361925112
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human interpretation of the world encompasses the use of symbols to
categorize sensory inputs and compose them in a hierarchical manner. One of the
long-term objectives of Computer Vision and Artificial Intelligence is to endow
machines with the capacity of structuring and interpreting the world as we do.
Towards this goal, recent methods have successfully been able to decompose and
disentangle video sequences into their composing objects and dynamics, in a
self-supervised fashion. However, there has been a scarce effort in giving
interpretation to the dynamics of the scene. We propose a method to decompose a
video into moving objects and their attributes, and model each object's
dynamics with linear system identification tools, by means of a Koopman
embedding. This allows interpretation, manipulation and extrapolation of the
dynamics of the different objects by employing the Koopman operator K. We test
our method in various synthetic datasets and successfully forecast challenging
trajectories while interpreting them.
- Abstract(参考訳): 世界の人間の解釈は、感覚入力を分類し、それらを階層的に構成するシンボルの使用を含んでいる。
コンピュータビジョンと人工知能の長期的な目的の1つは、世界を構造化し解釈する能力を持つ機械を養うことである。
この目的に向けて、近年の手法では、映像列を分解し、それらの合成オブジェクトとダイナミクスに分解することに成功した。
しかし、シーンのダイナミクスを解釈する努力は乏しい。
本稿では,動画を移動物体とその属性に分解し,コップマン埋め込みを用いた線形システム同定ツールを用いて各物体のダイナミクスをモデル化する手法を提案する。
これにより、koopman演算子kを使用することで、異なるオブジェクトのダイナミクスの解釈、操作、外挿が可能になる。
関連論文リスト
- Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects [14.034256001448574]
そこで本研究では,様々な物体の潜在的な動きを学習して予測する視覚ベースシステムを提案する。
我々は,このベクトル場に基づく解析的運動プランナを配置し,最大調音を与えるポリシを実現する。
その結果,本システムは実世界のシミュレーション実験と実世界実験の両方において,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-09T15:35:33Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation [6.853826783413853]
人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。
ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。
本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
論文 参考訳(メタデータ) (2020-11-08T01:04:59Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。