論文の概要: LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA
- arxiv url: http://arxiv.org/abs/2509.18576v1
- Date: Tue, 23 Sep 2025 02:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.66978
- Title: LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA
- Title(参考訳): LCMF:ロボットVQA用軽量クロスモダリティマンバフォーマ
- Authors: Zeyi Kang, Liang He, Yanxin Zhang, Zuheng Ming, Kaixing Zhao,
- Abstract要約: 本研究では,マルチレベルクロスモーダルパラメータ共有機構をMambaモジュールに導入した軽量LCMFカスケードアテンションフレームワークを提案する。
実験の結果、LCMFはVQAタスクの74.29%の精度で既存のマルチモーダルベースラインを超えることが示された。
その軽量な設計は、FLOPの4.35倍の削減を実現している。
- 参考スコア(独自算出の注目度): 6.035222621379327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal semantic learning plays a critical role in embodied intelligence, especially when robots perceive their surroundings, understand human instructions, and make intelligent decisions. However, the field faces technical challenges such as effective fusion of heterogeneous data and computational efficiency in resource-constrained environments. To address these challenges, this study proposes the lightweight LCMF cascaded attention framework, introducing a multi-level cross-modal parameter sharing mechanism into the Mamba module. By integrating the advantages of Cross-Attention and Selective parameter-sharing State Space Models (SSMs), the framework achieves efficient fusion of heterogeneous modalities and semantic complementary alignment. Experimental results show that LCMF surpasses existing multimodal baselines with an accuracy of 74.29% in VQA tasks and achieves competitive mid-tier performance within the distribution cluster of Large Language Model Agents (LLM Agents) in EQA video tasks. Its lightweight design achieves a 4.35-fold reduction in FLOPs relative to the average of comparable baselines while using only 166.51M parameters (image-text) and 219M parameters (video-text), providing an efficient solution for Human-Robot Interaction (HRI) applications in resource-constrained scenarios with strong multimodal decision generalization capabilities.
- Abstract(参考訳): マルチモーダルなセマンティックラーニングは、特にロボットが周囲を理解し、人間の指示を理解し、知的な決定を行う場合、インテリジェンスを具現化する上で重要な役割を果たす。
しかし、異種データの効果的な融合や資源制約のある環境での計算効率といった技術的課題に直面している。
これらの課題に対処するために,マルチレベルクロスモーダルパラメータ共有機構をMambaモジュールに導入した軽量LCMFカスケードアテンションフレームワークを提案する。
SSM(Cross-Attention and Selective parameter-sharing State Space Models)の利点を統合することで、不均一なモジュラリティとセマンティックな相補的アライメントの効率的な融合を実現する。
実験の結果,LCMFはVQAタスクの74.29%の精度で既存のマルチモーダルベースラインを超え,EQAビデオタスクにおけるLarge Language Model Agents(LLM Agents)の分散クラスタ内での競合的な中層性能を実現することがわかった。
その軽量な設計は166.51Mパラメータ(画像テキスト)と219Mパラメータ(動画テキスト)しか使用せず、FLOPの4.35倍の削減を実現し、強力なマルチモーダルな決定一般化能力を持つリソース制約のあるシナリオにおけるHRI(Human-Robot Interaction)アプリケーションに対する効率的なソリューションを提供する。
関連論文リスト
- DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking [18.8210909297317]
Multimodal Entity Linkingは、テキストとビジュアルの言及と、マルチモーダルな知識グラフのエンティティを関連付けることを目的としている。
現状の手法では、不完全文脈情報、粗いクロスモーダル融合、共同言語モデル(LLM)と大規模視覚モデル(LVM)の難しさといった課題に直面している。
マルチエージェント協調推論に基づく新しいフレームワークであるDeepMELを提案する。
論文 参考訳(メタデータ) (2025-08-21T11:24:26Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - A Survey on Collaborative Mechanisms Between Large and Small Language Models [5.1159419867547085]
大規模言語モデル(LLM)は強力なAI機能を提供するが、高いリソースコストとレイテンシのためにデプロイメントの課題に直面している。
小型言語モデル(SLM)は、性能の低下を犠牲にして効率性とデプロイ性を提供する。
論文 参考訳(メタデータ) (2025-05-12T11:48:42Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.388562622309838]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。