Fugu-MT 論文翻訳(概要): 3DB: A Framework for Debugging Computer Vision Models

論文の概要: 3DB: A Framework for Debugging Computer Vision Models

arxiv url: http://arxiv.org/abs/2106.03805v1
Date: Mon, 7 Jun 2021 17:16:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 18:45:54.234373
Title: 3DB: A Framework for Debugging Computer Vision Models
Title（参考訳）: 3DB:コンピュータビジョンモデルをデバッグするフレームワーク
Authors: Guillaume Leclerc, Hadi Salman, Andrew Ilyas, Sai Vemprala, Logan Engstrom, Vibhav Vineet, Kai Xiao, Pengchuan Zhang, Shibani Santurkar, Greg Yang, Ashish Kapoor, Aleksander Madry
Abstract要約: 3DBでは、コンピュータビジョンシステムの脆弱性を発見することができる。 3DBは、以前の作業から多くの分析をキャプチャし、一般化する。システムによって生成された洞察が,物理世界へ伝達されることが判明した。
参考スコア（独自算出の注目度）: 105.45042148499323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce 3DB: an extendable, unified framework for testing and debugging vision models using photorealistic simulation. We demonstrate, through a wide range of use cases, that 3DB allows users to discover vulnerabilities in computer vision systems and gain insights into how models make decisions. 3DB captures and generalizes many robustness analyses from prior work, and enables one to study their interplay. Finally, we find that the insights generated by the system transfer to the physical world. We are releasing 3DB as a library (https://github.com/3db/3db) alongside a set of example analyses, guides, and documentation: https://3db.github.io/3db/ .
Abstract（参考訳）: フォトリアリスティックシミュレーションを用いて視覚モデルをテストおよびデバッグするための拡張可能な統合フレームワークである3DBを紹介する。幅広いユースケースを通じて、ユーザがコンピュータビジョンシステムの脆弱性を発見し、モデルの意思決定方法に関する洞察を得ることができます。 3DBは、以前の作業から多くの堅牢性分析をキャプチャし、一般化し、それらの相互作用を研究することができる。最後に、システムが生み出す洞察が物理的世界へと移ることを見出す。私たちは3DBをライブラリとしてリリースしています(https://github.com/3db/3db)。

関連論文リスト

E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。 GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文参考訳（メタデータ） (2025-06-02T17:53:09Z)
A Review of 3D Object Detection with Vision-Language Models [0.31457219084519]
視覚言語モデルを用いた3次元物体検出のための最初の体系的解析を行う。ポイントクラウドとボクセルグリッドを使った従来のアプローチは、CLIPや3D LLMのようなモダンなビジョン言語フレームワークと比較される。私たちは、限られた3D言語データセットや計算要求など、現在の課題を強調します。
論文参考訳（メタデータ） (2025-04-25T23:27:26Z)
Open-source framework for detecting bias and overfitting for large pathology images [0.0]
数十億のデータサンプルを持つデータセットでトレーニングされた基礎モデルでさえ、過度な適合とバイアスにつながるショートカットを発生させる可能性がある。ディープラーニングモデルをデバッグするための一般化されたモデルに依存しないフレームワークを提案する。私たちのフレームワークはオープンソースツールとしてGitHubで利用可能です。
論文参考訳（メタデータ） (2025-03-03T18:52:53Z)
Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds [45.87961177297602]
この研究は、人間中心環境におけるロボットのインタラクションと操作のための包括的なフレームワークに、最近の手法を統合することを目的としている。具体的には,コモディティ3Dスキャナの3次元再構成をオープン語彙のインスタンスセグメンテーションに活用する。本研究では,動的オブジェクト検索と引き出し開口を含む実世界の2つの実験において,モデルの性能とロバスト性を示す。
論文参考訳（メタデータ） (2024-04-18T18:01:15Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文参考訳（メタデータ） (2023-08-26T07:38:21Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model [59.04877271899894]
本稿では,SAMのゼロショット能力を3次元物体検出に適用することを検討する。大規模オープンデータセット上でオブジェクトを検出し,有望な結果を得るために,SAMを用いたBEV処理パイプラインを提案する。
論文参考訳（メタデータ） (2023-06-04T03:09:21Z)
3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-05T11:45:26Z)
Survey and Systematization of 3D Object Detection Models and Methods [3.472931603805115]
2012-2021年の3次元物体検出における最近の進展を包括的に調査する。基本概念を導入し、過去10年間に現れた幅広い異なるアプローチに焦点を当てます。本稿では,これらの手法を今後の開発・評価・アプリケーション活動の指針として,実践的な枠組みで比較するシステム化を提案する。
論文参考訳（メタデータ） (2022-01-23T20:06:07Z)
BANMo: Building Animatable 3D Neural Models from Many Casual Videos [135.64291166057373]
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。 Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
論文参考訳（メタデータ） (2021-12-23T18:30:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。