論文の概要: MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2606.02463v1
- Date: Mon, 01 Jun 2026 16:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.506394
- Title: MASER: Modality-Adaptive Specialist Routing for Embodied 3D Spatial Intelligence
- Title(参考訳): MASER: 身体的3次元空間知能のためのモダリティ適応型スペシャリストルーティング
- Authors: Hilton Raj, Vishnuram AV,
- Abstract要約: 3D環境では、身体的エージェントは、モダリティの混合から推論することで、空間的に関係のある質問に答える。
我々は、共有VLMバックボーンの5つの異なるモダリティアダプタを訓練し、ニューラルルーティングポリシーを学習するフレームワークであるMASERを提案する。
提案手法をOpen3D-VQAベンチマークで評価した結果, 単一のモダリティが普遍的に最適でないことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D environments, Embodied Agents answer spatially relevant questions through reasoning from a mixture of modalities including natural language, RGB images, point clouds, depth maps and camera poses. Existing Vision-Language models (VLMs) are fine-tuned over a single modality. This completely ignores the question semantics which may favor a different modality than the finetuned modality. To address this, we propose MASER (Modality-Adaptive SpEcialist Routing), a lightweight framework that trains five different modality adapters of a shared VLM backbone and learns a neural routing policy that selects the best adapter based on the question during inference. We encode each question with a frozen sentence transformer and pass the embedding through a small Multi-layer Perceptron (MLP) trained on oracle adapter-accuracy labels. We evaluate our methodology over the Open3D-VQA benchmark and our evaluations show that no single modality is universally optimal -- point-cloud answers are best in 51.5% of cases. MASER routes with 51.3% oracle agreement, outperforming a Random-Forest ablation (43.5%), with only a single adapter call per question.
- Abstract(参考訳): 3D環境では、Embodied Agentsは、自然言語、RGB画像、点雲、深度マップ、カメラポーズなどを含む様々なモダリティから推論することで、空間的に関連する質問に答える。
既存のビジョンランゲージモデル(VLM)は、1つのモードで微調整される。
これは、微調整されたモダリティとは異なるモダリティを好むかもしれない問題意味論を完全に無視する。
そこで我々は,共有VLMバックボーンの5つの異なるモダリティアダプタを訓練する軽量フレームワークMASER(Modality-Adaptive SpEcialist Routing)を提案する。
我々は、各質問を凍結文変換器でエンコードし、その埋め込みを、オラクルアダプタ精度のラベルで訓練された小さな多層パーセプトロン(MLP)に渡す。
提案手法をOpen3D-VQAベンチマークで評価した結果,51.5%のケースにおいて,単一モダリティが最適ではないことがわかった。
MASERは51.3%のオラクル契約を締結し、ランダム・フォレスト・アブレーション(43.5%)を上回っている。
関連論文リスト
- FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding [30.42523020030251]
VLM(Vision-Language Models)は、一般的なビデオ理解において顕著な能力を示す。
彼らはしばしば、現実世界のアプリケーションに不可欠なきめ細かい理解に苦しむ。
我々は、きめ細かい理解を評価するために特別に設計されたベンチマークであるFineBenchを紹介する。
論文 参考訳(メタデータ) (2026-05-19T13:40:26Z) - LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer? [69.71754384259167]
マルチモーダル大言語モデル(MLLM)は、OCR、チャート理解、空間的推論、視覚的質問応答、コスト、レイテンシにまたがるヘテロジニアスな強度を持つ。
本稿では,MLLMルーティングを実効的マルチモーダルユーティリティ予測として定式化するルータであるLatentを提案する。
MMR-BenchとVL-Benchの実験では、Latentは固定モデル、特徴レベル、学習ルータベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-05-11T22:42:12Z) - The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation [65.24213788883016]
本報告では,第5回PVUW MeViS-Text Challengeの優勝ソリューションについて述べる。
私たちは、強力なマルチモーダルな大規模言語モデルとSAM3を組み合わせた、完全にトレーニング不要なパイプラインを構築しています。
我々の手法はPVUW 2026 MeViS-Textテストセットで第1位であり、最終スコアは0.909064、J&Fスコアは0.7897026である。
論文 参考訳(メタデータ) (2026-04-01T02:42:30Z) - CoV: Chain-of-View Prompting for Spatial Reasoning [64.77921266428824]
CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
論文 参考訳(メタデータ) (2026-01-08T17:59:42Z) - RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language [1.5599296461516985]
RAVENは、クエリ条件のクロスモーダルゲーティングモジュールであるQuARTをコアとする統一QAアーキテクチャである。
RAVENは、単調な事前トレーニング、クエリ整合融合、不一致指向の微調整を含む3段階のパイプラインを通じてトレーニングされる。
実験の結果、RAVENは最先端のマルチモーダル言語モデルと比較して14.5%と8.0%の精度で向上した。
論文 参考訳(メタデータ) (2025-05-21T14:33:36Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Generate then Select: Open-ended Visual Question Answering Guided by
World Knowledge [155.81786738036578]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。
GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。
我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文 参考訳(メタデータ) (2023-05-30T08:34:13Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。