Fugu-MT 論文翻訳(概要): MObI: Multimodal Object Inpainting Using Diffusion Models

論文の概要: MObI: Multimodal Object Inpainting Using Diffusion Models

arxiv url: http://arxiv.org/abs/2501.03173v1
Date: Mon, 06 Jan 2025 17:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:52.289216
Title: MObI: Multimodal Object Inpainting Using Diffusion Models
Title（参考訳）: MObI:拡散モデルを用いたマルチモーダルオブジェクト描画
Authors: Alexandru Buburuzan, Anuj Sharma, John Redford, Puneet K. Dokania, Romain Mueller,
Abstract要約: マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
参考スコア（独自算出の注目度）: 52.07640413626605
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety-critical applications, such as autonomous driving, require extensive multimodal data for rigorous testing. Methods based on synthetic data are gaining prominence due to the cost and complexity of gathering real-world data but require a high degree of realism and controllability in order to be useful. This paper introduces MObI, a novel framework for Multimodal Object Inpainting that leverages a diffusion model to create realistic and controllable object inpaintings across perceptual modalities, demonstrated for both camera and lidar simultaneously. Using a single reference RGB image, MObI enables objects to be seamlessly inserted into existing multimodal scenes at a 3D location specified by a bounding box, while maintaining semantic consistency and multimodal coherence. Unlike traditional inpainting methods that rely solely on edit masks, our 3D bounding box conditioning gives objects accurate spatial positioning and realistic scaling. As a result, our approach can be used to insert novel objects flexibly into multimodal scenes, providing significant advantages for testing perception models.
Abstract（参考訳）: 自律運転のような安全クリティカルなアプリケーションは、厳密なテストのために広範囲なマルチモーダルデータを必要とする。合成データに基づく手法は、実世界のデータ収集のコストと複雑さから注目されているが、有用性を得るためには高度なリアリズムと制御性が必要である。本稿では, 拡散モデルを利用して, カメラとライダーの両面に同時に, 現実的かつ制御可能なオブジェクトの塗り絵を作成する, マルチモーダルオブジェクトの塗り絵作成フレームワークMObIを紹介する。単一の参照RGBイメージを使用することで、セマンティック一貫性とマルチモーダルコヒーレンスを維持しつつ、既存のマルチモーダルシーンにバウンディングボックスで指定された3Dロケーションでシームレスにオブジェクトを挿入することができる。マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。その結果,新しい物体を多モードシーンに柔軟に挿入できるようになり,知覚モデルをテストする上で大きな利点が得られた。

関連論文リスト

Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文参考訳（メタデータ） (2025-07-30T19:43:47Z)
BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion [16.079323626739857]
本稿では,メモリ効率とリアルタイム3D検出に適した,再構成不要な新しいオンラインフレームワークを提案する。本手法は,オンライン手法の最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-18T16:40:05Z)
Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文参考訳（メタデータ） (2025-06-05T09:14:42Z)
Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.21162433486564]
適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。 Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文参考訳（メタデータ） (2025-05-27T12:03:30Z)
CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文参考訳（メタデータ） (2025-02-20T20:05:30Z)
HOMER: Homography-Based Efficient Multi-view 3D Object Removal [25.832938786291358]
3Dオブジェクトの除去は、3Dシーン編集において重要なサブタスクであり、シーン理解、拡張現実、ロボット工学に広く応用されている。既存の手法は、複数ビュー設定における一貫性、ユーザビリティ、計算効率の相違点を達成するのに苦労する。マルチビューオブジェクトマスク生成とインペイントの質と効率を向上する新しいパイプラインを提案する。
論文参考訳（メタデータ） (2025-01-29T13:12:06Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文参考訳（メタデータ） (2024-09-26T23:18:25Z)
MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文参考訳（メタデータ） (2024-08-12T06:46:05Z)
Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。 COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文参考訳（メタデータ） (2024-03-07T00:00:02Z)
SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。 SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文参考訳（メタデータ） (2024-01-17T11:15:09Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文参考訳（メタデータ） (2023-03-29T16:08:59Z)
AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文参考訳（メタデータ） (2022-07-21T06:17:23Z)
Unifying Voxel-based Representation with Transformer for 3D Object Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。 UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文参考訳（メタデータ） (2022-06-01T17:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。