論文の概要: MultimodalStudio: A Heterogeneous Sensor Dataset and Framework for Neural Rendering across Multiple Imaging Modalities
- arxiv url: http://arxiv.org/abs/2503.19673v1
- Date: Tue, 25 Mar 2025 14:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:04.155322
- Title: MultimodalStudio: A Heterogeneous Sensor Dataset and Framework for Neural Rendering across Multiple Imaging Modalities
- Title(参考訳): MultimodalStudio:複数の画像モダリティにまたがるニューラルレンダリングのための異種センサデータセットとフレームワーク
- Authors: Federico Lincetto, Gianluca Agresti, Mattia Rossi, Pietro Zanuttigh,
- Abstract要約: 我々は,MMS-FWが単一のモダリティのみを使用する場合よりも,異なるモダリティ間で情報を転送し,高品質なレンダリングを実現できることを示す。
我々はデータセットとフレームワークを公開し、マルチモーダルボリュームレンダリングなどの研究を促進する。
- 参考スコア(独自算出の注目度): 13.989660508893511
- License:
- Abstract: Neural Radiance Fields (NeRF) have shown impressive performances in the rendering of 3D scenes from arbitrary viewpoints. While RGB images are widely preferred for training volume rendering models, the interest in other radiance modalities is also growing. However, the capability of the underlying implicit neural models to learn and transfer information across heterogeneous imaging modalities has seldom been explored, mostly due to the limited training data availability. For this purpose, we present MultimodalStudio (MMS): it encompasses MMS-DATA and MMS-FW. MMS-DATA is a multimodal multi-view dataset containing 32 scenes acquired with 5 different imaging modalities: RGB, monochrome, near-infrared, polarization and multispectral. MMS-FW is a novel modular multimodal NeRF framework designed to handle multimodal raw data and able to support an arbitrary number of multi-channel devices. Through extensive experiments, we demonstrate that MMS-FW trained on MMS-DATA can transfer information between different imaging modalities and produce higher quality renderings than using single modalities alone. We publicly release the dataset and the framework, to promote the research on multimodal volume rendering and beyond.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)は、任意の視点から3Dシーンをレンダリングする際、印象的な性能を示した。
ボリュームレンダリングモデルのトレーニングにはRGBイメージが好まれる一方で、他のラディアンスモダリティへの関心も高まっている。
しかし、下層の暗黙的ニューラルモデルが不均一な画像モダリティ間で情報を学習し、伝達する能力は、主にトレーニングデータの可用性が制限されているため、ほとんど調査されていない。
この目的のために,MMS-DATA と MMS-FW を包含する MultimodalStudio (MMS) を提案する。
MMS-DATAは、RGB、モノクローム、近赤外線、偏光、マルチスペクトルの5つの異なる画像モダリティで取得された32のシーンを含むマルチモーダルなマルチビューデータセットである。
MMS-FWは、マルチモーダルな生データを処理し、任意の数のマルチチャネルデバイスをサポートするように設計された新しいモジュラーマルチモーダルNeRFフレームワークである。
MMS-DATAで訓練されたMMS-FWは、様々な画像モダリティ間で情報を伝達し、単一のモダリティのみを使用するよりも高品質なレンダリングを実現できることを示す。
我々はデータセットとフレームワークを公開し、マルチモーダルボリュームレンダリングなどの研究を促進する。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation [25.252173311925027]
マルチモーダル,マルチGSD,マルチシーンリモートセンシング(MMM-RS)データセットと,多様なリモートセンシングシナリオにおけるテキスト・ツー・イメージ生成のためのベンチマークを提案する。
大規模な事前学習型視覚言語モデルを用いて、テキストプロンプトを自動出力し、手作りの修正を行う。
広範囲な手動スクリーニングと修正アノテーションにより、最終的に約2100万のテキストイメージペアからなるMMM-RSデータセットを得る。
論文 参考訳(メタデータ) (2024-10-26T11:19:07Z) - Multi-sensor Learning Enables Information Transfer across Different Sensory Data and Augments Multi-modality Imaging [21.769547352111957]
データ駆動型マルチモーダルイメージング(DMI)によるCTとMRIのシナジーイメージングについて検討した。
マルチモダリティ・イメージングにおける特徴,すなわちモダリティ・イントラモダリティ・イントラモダリティの2つの特徴を明らかにし,マルチセンサ・ラーニング(MSL)フレームワークを提案する。
相乗的CT-MRI脳画像撮影によるDMI戦略の有効性について紹介する。
論文 参考訳(メタデータ) (2024-09-28T17:40:54Z) - Instruction-Guided Visual Masking [25.26544571379426]
Instruction-guided Visual Masking (IVM) は多様なマルチモーダルモデルと互換性のある多目的な視覚的接地モデルである。
IVMを拡張したマルチモーダルモデルは、タスク関連の画像領域に効果的にフォーカスすることで、複雑な命令との整合性を向上することができる。
論文 参考訳(メタデータ) (2024-05-30T07:48:32Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Towards Transferable Multi-modal Perception Representation Learning for
Autonomy: NeRF-Supervised Masked AutoEncoder [1.90365714903665]
本研究では,伝達可能な多モード認識表現学習のための自己教師付き事前学習フレームワークを提案する。
我々は,NeRF-Supervised Masked AutoEncoder (NS-MAE) を用いて学習した表現が,マルチモーダルおよびシングルモーダル(カメラのみ,ライダーのみ)の知覚モデルに対して有望な伝達性を示すことを示す。
この研究が、自律エージェントのためのより一般的なマルチモーダル表現学習の探求を促すことを願っている。
論文 参考訳(メタデータ) (2023-11-23T00:53:11Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Multi-Domain Image Completion for Random Missing Input Data [17.53581223279953]
マルチドメインデータは、異なるモダリティからの相補的な情報を利用する視覚アプリケーションで広く活用されている。
データ破損と異なるイメージングプロトコルにより、各領域のイメージの可用性は複数のデータソースによって異なる可能性がある。
実アプリケーションでランダムに欠落したドメイン(s)データを補完する一般的な手法を提案する。
論文 参考訳(メタデータ) (2020-07-10T16:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。