論文の概要: Video Transformers under Occlusion: How Physics and Background
Attributes Impact Large Models for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2310.02044v2
- Date: Wed, 11 Oct 2023 09:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 03:01:55.612707
- Title: Video Transformers under Occlusion: How Physics and Background
Attributes Impact Large Models for Robotic Manipulation
- Title(参考訳): 咬合下のビデオトランスフォーマー:物理と背景がロボット操作の大規模モデルに与える影響
- Authors: Shutong Jin, Ruiyu Wang, Muhammad Zahid and Florian T. Pokorny
- Abstract要約: 本稿では,物体物理特性が映像変換器の性能に与える影響について検討する。
我々はOccluManipについて紹介する。OccluManipは460,000件のオブジェクトの一貫性のある記録からなる実世界のビデオベースのロボットプッシュデータセットである。
本稿では,ビデオ・オクルージョン・トランスフォーマ(VOT)を提案する。ビデオ・オクルージョン・トランスフォーマ(VOT)はビデオ・トランスフォーマをベースとした汎用ネットワークで,全18のサブデータセットに対して平均96%の精度を実現している。
- 参考スコア(独自算出の注目度): 9.215070588761282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As transformer architectures and dataset sizes continue to scale, the need to
understand the specific dataset factors affecting model performance becomes
increasingly urgent. This paper investigates how object physics attributes
(color, friction coefficient, shape) and background characteristics (static,
dynamic, background complexity) influence the performance of Video Transformers
in trajectory prediction tasks under occlusion. Beyond mere occlusion
challenges, this study aims to investigate three questions: How do object
physics attributes and background characteristics influence the model
performance? What kinds of attributes are most influential to the model
generalization? Is there a data saturation point for large transformer model
performance within a single task? To facilitate this research, we present
OccluManip, a real-world video-based robot pushing dataset comprising 460,000
consistent recordings of objects with different physics and varying
backgrounds. 1.4 TB and in total 1278 hours of high-quality videos of flexible
temporal length along with target object trajectories are collected,
accommodating tasks with different temporal requirements. Additionally, we
propose Video Occlusion Transformer (VOT), a generic video-transformer-based
network achieving an average 96% accuracy across all 18 sub-datasets provided
in OccluManip. OccluManip and VOT will be released at:
https://github.com/ShutongJIN/OccluManip.git
- Abstract(参考訳): トランスフォーマーアーキテクチャとデータセットサイズが拡大を続けるにつれ、モデルパフォーマンスに影響を与える特定のデータセット要因を理解する必要性が高まっている。
本稿では, 物体物理特性(色, 摩擦係数, 形状)と背景特性(静的, 動的, 背景複雑さ)が, 障害物予測タスクにおけるビデオトランスフォーマーの性能に与える影響について検討する。
物体物理学的属性と背景特性はモデルの性能にどのように影響するか?
モデル一般化に最も影響を与える属性は何か?
1つのタスクで大きなトランスフォーマーモデルのパフォーマンスにデータ飽和点があるだろうか?
そこで,本研究では,異なる物理と背景を持つ物体の46万の一貫した記録からなる実世界ビデオベース・プッシュ・データセットであるocclumanipを提案する。
1.4 tb, フレキシブルな時間長の1278時間の高画質映像と対象物軌跡を収集し, 時間的要件の異なるタスクに適応した。
さらに,OccluManipが提供する18のサブデータセットすべてに対して,平均96%の精度でビデオ変換を行う汎用ビデオ変換器(VOT)を提案する。
OccluManip と VOT は https://github.com/ShutongJIN/OccluManip.git でリリースされる。
関連論文リスト
- VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - PresSim: An End-to-end Framework for Dynamic Ground Pressure Profile
Generation from Monocular Videos Using Physics-based 3D Simulation [8.107762252448195]
人体が受ける地圧は、広汎なセンシングにおいて、人間の活動認識(HAR)にとって貴重な情報源である。
本稿では,人間の活動のビデオからセンサデータを合成し,その労力を大幅に削減する,新しいエンドツーエンドフレームワークPresSimを提案する。
論文 参考訳(メタデータ) (2023-02-01T12:02:04Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。