論文の概要: A Control-Centric Benchmark for Video Prediction
- arxiv url: http://arxiv.org/abs/2304.13723v1
- Date: Wed, 26 Apr 2023 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:26:52.019791
- Title: A Control-Centric Benchmark for Video Prediction
- Title(参考訳): 映像予測のための制御中心ベンチマーク
- Authors: Stephen Tian, Chelsea Finn, Jiajun Wu
- Abstract要約: 本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
- 参考スコア(独自算出の注目度): 69.22614362800692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video is a promising source of knowledge for embodied agents to learn models
of the world's dynamics. Large deep networks have become increasingly effective
at modeling complex video data in a self-supervised manner, as evaluated by
metrics based on human perceptual similarity or pixel-wise comparison. However,
it remains unclear whether current metrics are accurate indicators of
performance on downstream tasks. We find empirically that for planning robotic
manipulation, existing metrics can be unreliable at predicting execution
success. To address this, we propose a benchmark for action-conditioned video
prediction in the form of a control benchmark that evaluates a given model for
simulated robotic manipulation through sampling-based planning. Our benchmark,
Video Prediction for Visual Planning ($VP^2$), includes simulated environments
with 11 task categories and 310 task instance definitions, a full planning
implementation, and training datasets containing scripted interaction
trajectories for each task category. A central design goal of our benchmark is
to expose a simple interface -- a single forward prediction call -- so it is
straightforward to evaluate almost any action-conditioned video prediction
model. We then leverage our benchmark to study the effects of scaling model
size, quantity of training data, and model ensembling by analyzing five
highly-performant video prediction models, finding that while scale can improve
perceptual quality when modeling visually diverse settings, other attributes
such as uncertainty awareness can also aid planning performance.
- Abstract(参考訳): ビデオは、エンボディエージェントが世界のダイナミクスのモデルを学ぶための有望な知識源である。
大規模深層ネットワークは,人間の知覚的類似性や画素間比較に基づく指標によって評価されるように,複雑な映像データを自己教師ありでモデル化する上で,ますます効果的になっている。
しかし、現在のメトリクスが下流タスクのパフォーマンスの正確な指標であるかどうかは不明だ。
ロボット操作を計画する上で、既存のメトリクスは実行の成功を予測するのに信頼できない。
そこで本研究では、サンプリングベース計画によるロボット操作のシミュレーションモデルを評価する制御ベンチマークの形で、アクション条件付き映像予測のためのベンチマークを提案する。
私たちのベンチマークであるvideo prediction for visual planning(vp^2$)には、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境、完全なプランニング実装、各タスクカテゴリのスクリプト化されたインタラクショントラジェクタを含むデータセットが含まれています。
ベンチマークの中心的な設計目標は,単純なインターフェース – 単一の前方予測コール – を公開することです。
次に、我々のベンチマークを用いて、5つの高性能ビデオ予測モデルを分析することにより、モデルサイズ、トレーニングデータ量、モデルアンサンブルの効果について検討し、視覚的に多様な設定をモデル化する際に、スケールが知覚品質を向上させる一方で、不確実性認識などの属性が計画性能にも役立つことを発見した。
関連論文リスト
- Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。