論文の概要: BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
- arxiv url: http://arxiv.org/abs/2405.09546v1
- Date: Wed, 15 May 2024 17:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 12:46:34.969249
- Title: BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation
- Title(参考訳): BEHAVIOR Vision Suite: シミュレーションによるカスタマイズ可能なデータセット生成
- Authors: Yunhao Ge, Yihe Tang, Jiashu Xu, Cem Gokmen, Chengshu Li, Wensi Ai, Benjamin Jose Martinez, Arman Aydin, Mona Anvari, Ayush K Chakravarthy, Hong-Xing Yu, Josiah Wong, Sanjana Srivastava, Sharon Lee, Shengxin Zha, Laurent Itti, Yunzhu Li, Roberto Martín-Martín, Miao Liu, Pengchuan Zhang, Ruohan Zhang, Li Fei-Fei, Jiajun Wu,
- Abstract要約: 我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
- 参考スコア(独自算出の注目度): 57.40024206484446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The systematic evaluation and understanding of computer vision models under varying conditions require large amounts of data with comprehensive and customized labels, which real-world vision datasets rarely satisfy. While current synthetic data generators offer a promising alternative, particularly for embodied AI tasks, they often fall short for computer vision tasks due to low asset and rendering quality, limited diversity, and unrealistic physical properties. We introduce the BEHAVIOR Vision Suite (BVS), a set of tools and assets to generate fully customized synthetic data for systematic evaluation of computer vision models, based on the newly developed embodied AI benchmark, BEHAVIOR-1K. BVS supports a large number of adjustable parameters at the scene level (e.g., lighting, object placement), the object level (e.g., joint configuration, attributes such as "filled" and "folded"), and the camera level (e.g., field of view, focal length). Researchers can arbitrarily vary these parameters during data generation to perform controlled experiments. We showcase three example application scenarios: systematically evaluating the robustness of models across different continuous axes of domain shift, evaluating scene understanding models on the same set of images, and training and evaluating simulation-to-real transfer for a novel vision task: unary and binary state prediction. Project website: https://behavior-vision-suite.github.io/
- Abstract(参考訳): 様々な条件下でのコンピュータビジョンモデルの体系的評価と理解は、包括的でカスタマイズされたラベルを持つ大量のデータを必要とする。
現在の合成データジェネレータは、特に具現化されたAIタスクにおいて有望な代替手段を提供するが、しばしば、低い資産とレンダリング品質、限られた多様性、非現実的な物理的特性のためにコンピュータビジョンタスクに不足する。
我々は,新たに開発されたAIベンチマークであるBEHAVIOR-1Kに基づいて,コンピュータビジョンモデルの体系的評価のための,完全にカスタマイズされた合成データを生成するためのツールとアセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSは、シーンレベル(例えば、照明、オブジェクト配置)、オブジェクトレベル(例えば、ジョイント構成、"filled"や"folded"などの属性)、カメラレベル(例えば、視野、焦点距離)で、多数の調整可能なパラメータをサポートしている。
研究者は、データ生成中にこれらのパラメータを任意に変化させ、制御された実験を行うことができる。
ドメインシフトの異なる連続軸にまたがるモデルのロバスト性を体系的に評価し、同じ画像集合上のシーン理解モデルを評価し、新しいビジョンタスクのためのシミュレーション・トゥ・リアル・トランスファーのトレーニングと評価を行う。
プロジェクトサイト:https://behavior-vision-suite.github.io/
関連論文リスト
- VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research [10.764333144509571]
VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。
サブタスクは、使用データの観点から本質的に整列している。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
論文 参考訳(メタデータ) (2024-02-29T11:38:44Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - StandardSim: A Synthetic Dataset For Retail Environments [0.07874708385247352]
本稿では,意味的セグメンテーション,インスタンスセグメンテーション,深さ推定,オブジェクト検出のためのアノテーションを特徴とする大規模合成データセットを提案する。
私たちのデータセットはシーン毎に複数のビューを提供し、マルチビュー表現学習を可能にします。
我々は、データセットのセグメンテーションと深さ推定に広く使用されているモデルをベンチマークし、我々のテストセットが現在の小規模データセットと比較して難しいベンチマークを構成することを示す。
論文 参考訳(メタデータ) (2022-02-04T22:28:35Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。