論文の概要: How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing
- arxiv url: http://arxiv.org/abs/2310.02044v3
- Date: Sun, 17 Mar 2024 10:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:42:41.720433
- Title: How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing
- Title(参考訳): 物理と背景がロボットマニピュレーションにおける映像トランスフォーマーに与える影響 : 平面プッシュを事例として
- Authors: Shutong Jin, Ruiyu Wang, Muhammad Zahid, Florian T. Pokorny,
- Abstract要約: 物理特性(色,摩擦係数,形状)と背景特性が映像変換器の性能に与える影響について検討した。
提案するCloudGripper-Push-1Kは,大規模なビジョンベースロボットのプッシュデータセットである。
また,ビデオ・オクルージョン・トランスフォーマ (VOT) を提案する。
- 参考スコア(独自算出の注目度): 8.435401907462245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As model and dataset sizes continue to scale in robot learning, the need to understand what is the specific factor in the dataset that affects model performance becomes increasingly urgent to ensure cost-effective data collection and model performance. In this work, we empirically investigate how physics attributes (color, friction coefficient, shape) and scene background characteristics, such as the complexity and dynamics of interactions with background objects, influence the performance of Video Transformers in predicting planar pushing trajectories. We aim to investigate three primary questions: How do physics attributes and background scene characteristics influence model performance? What kind of changes in attributes are most detrimental to model generalization? What proportion of fine-tuning data is required to adapt models to novel scenarios? To facilitate this research, we present CloudGripper-Push-1K, a large real-world vision-based robot pushing dataset comprising 1278 hours and 460,000 videos of planar pushing interactions with objects with different physics and background attributes. We also propose Video Occlusion Transformer (VOT), a generic modular video-transformer-based trajectory prediction framework which features 3 choices of 2D-spatial encoders as the subject of our case study. Dataset and codes will be available at https://cloudgripper.org.
- Abstract(参考訳): ロボット学習において、モデルとデータセットのサイズが拡大し続けるにつれて、コスト効率の高いデータ収集とモデルパフォーマンスを保証するために、モデルパフォーマンスに影響を与えるデータセットの特定の要因が何であるかを理解する必要がある。
本研究では,背景物体との相互作用の複雑度や動的度などの物理特性(色,摩擦係数,形状)とシーン背景特性が,映像変換器の性能に与える影響を実験的に検討した。
物理特性と背景環境特性はモデル性能にどのように影響するのか?
モデル一般化に最も有害な属性の変化は何か?
新たなシナリオにモデルを適応させるためには、どのような微調整データが必要か?
この研究を促進するために,1278時間46万本のビデオと,異なる物理特性と背景特性を持つ物体との相互作用を平面的にプッシュする,大規模な実世界の視覚ベースのロボットプッシュデータセットであるCloudGripper-Push-1Kを紹介した。
また,ビデオ・オクルージョン・トランスフォーマ (VOT) を提案する。ビデオ・オクルージョン・トランスフォーマ (VOT) は2次元空間エンコーダの3つの選択をケーススタディの主題としている。
データセットとコードはhttps://cloudgripper.org.comで入手できる。
関連論文リスト
- AdaptiGraph: Material-Adaptive Graph-Based Neural Dynamics for Robotic Manipulation [30.367498271886866]
本稿では,学習に基づく動的モデリング手法であるAdaptiGraphを紹介する。
ロボットは様々な難易度の高い変形可能な素材を予測し、適応し、制御することができる。
実世界の変形可能な物体の多種多様な集合を含む予測・操作タスクについて,予測精度とタスク習熟度に優れることを示す。
論文 参考訳(メタデータ) (2024-07-10T17:57:04Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - Physics-Based Rigid Body Object Tracking and Friction Filtering From RGB-D Videos [8.012771454339353]
本稿では,RGB-D画像から剛体物体を3次元追跡し,物体の物理的特性を推定する手法を提案する。
実世界のデータセット上で、我々のアプローチを実証し、評価する。
論文 参考訳(メタデータ) (2023-09-27T14:46:01Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。