論文の概要: Action-conditioned video data improves predictability
- arxiv url: http://arxiv.org/abs/2404.05439v1
- Date: Mon, 8 Apr 2024 12:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:34:53.546311
- Title: Action-conditioned video data improves predictability
- Title(参考訳): アクション条件付きビデオデータによる予測可能性の向上
- Authors: Meenakshi Sarkar, Debasish Ghose,
- Abstract要約: Action-Conditioned Video Generation (ACVG)フレームワークは、ロボットのアクションに条件付けられたビデオシーケンスを生成する。
ACVGはロボットの動作に規定された映像シーケンスを生成し、視覚と行動が相互にどう影響するかの探索と分析を可能にする。
- 参考スコア(独自算出の注目度): 1.9567015559455132
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-term video generation and prediction remain challenging tasks in computer vision, particularly in partially observable scenarios where cameras are mounted on moving platforms. The interaction between observed image frames and the motion of the recording agent introduces additional complexities. To address these issues, we introduce the Action-Conditioned Video Generation (ACVG) framework, a novel approach that investigates the relationship between actions and generated image frames through a deep dual Generator-Actor architecture. ACVG generates video sequences conditioned on the actions of robots, enabling exploration and analysis of how vision and action mutually influence one another in dynamic environments. We evaluate the framework's effectiveness on an indoor robot motion dataset which consists of sequences of image frames along with the sequences of actions taken by the robotic agent, conducting a comprehensive empirical study comparing ACVG to other state-of-the-art frameworks along with a detailed ablation study.
- Abstract(参考訳): 長期的なビデオ生成と予測は、特に移動プラットフォームにカメラを装着する部分的に観察可能なシナリオにおいて、コンピュータビジョンにおいて難しい課題である。
観察された画像フレームと記録剤の動きとの相互作用は、さらなる複雑さをもたらす。
これらの課題に対処するため、我々は、深層2重ジェネレータ・アクターアーキテクチャを用いて、アクションと生成された画像フレームの関係を調査する新しいアプローチである、Action-Conditioned Video Generation (ACVG)フレームワークを導入する。
ACVGはロボットの動作に規定された映像シーケンスを生成し、動的環境における視覚と行動が相互に与える影響の探索と分析を可能にする。
ACVGを他の最先端のフレームワークと比較した総合的な実証的研究を行い、詳細なアブレーション研究とともに、画像フレームのシーケンスとロボットエージェントのアクションのシーケンスからなる屋内ロボット動作データセットにおけるフレームワークの有効性を評価した。
関連論文リスト
- Video Generation with Learned Action Prior [1.740992908651449]
カメラの動きが画像ピクセルと相互作用するので、カメラが動くプラットフォームにマウントされる場合、ビデオ生成は特に困難である。
既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。
本稿では,観察された画像状態の一部としてカメラやアクションを考慮し,マルチAP学習フレームワーク内の画像状態とアクションの両方をモデル化する手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:00:07Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation [21.387160107315797]
本稿では,ロボットが自律的に環境を探索し,行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。
ACSGは、シーン内の低レベル情報(幾何学と意味論)と高レベル情報(異なるエンティティ間のアクション条件付き関係)の両方を記述している。
本稿では,LMM(Large Multimodal Model)と明示的なメモリ設計を取り入れたロボット探索システム(RoboEXP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:27:17Z) - Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - CycleACR: Cycle Modeling of Actor-Context Relations for Video Action
Detection [67.90338302559672]
生のビデオシナリオを直接活用するのではなく,アクター関連シーンコンテキストを選択して関係モデリングを改善することを提案する。
我々は、アクターとコンテキストの関係を双方向形式でモデル化する対称グラフを持つCycleACR(CycleACR)を開発した。
C2A-Eに焦点を当てた既存の設計と比較して、CycleACRはより効果的な関係モデリングのためのA2C-Rを導入しています。
論文 参考訳(メタデータ) (2023-03-28T16:40:47Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - GATSBI: Generative Agent-centric Spatio-temporal Object Interaction [9.328991021103294]
GAT SBIは生観測の系列を構造化表現に変換する生成モデルである。
GAT SBIはシーン分解や映像予測において最先端技術に比べて優れていることを示す。
論文 参考訳(メタデータ) (2021-04-09T09:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。