論文の概要: HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.02533v1
- Date: Wed, 28 Jan 2026 07:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.910058
- Title: HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models
- Title(参考訳): HMVLA:ビジョン・ランゲージ・アクションモデルのための双曲型マルチモーダル核融合
- Authors: Kun Wang, Xiao Feng, Mingcheng Qu, Tonghua Su,
- Abstract要約: HMVLAは、視覚と言語における固有の階層構造を利用して、包括的なセマンティックアライメントを実現する。
我々のHMVLAは双曲空間にマルチモーダルな特徴を埋め込んで、画像テキストデータに存在する階層関係をより効果的にモデリングすることを可能にする。
- 参考スコア(独自算出の注目度): 4.59200581394731
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Action (VLA) models have recently shown great potential in bridging multimodal perception with robotic control. However, existing methods often rely on direct fine-tuning of pre-trained Vision-Language Models (VLMs), feeding semantic and visual features directly into a policy network without fully addressing the unique semantic alignment challenges in the VLA domain. In this paper, we propose HMVLA, a novel VLA framework that exploits the inherent hierarchical structures in vision and language for comprehensive semantic alignment. Unlike traditional methods that perform alignment in Euclidean space, our HMVLA embeds multimodal features in hyperbolic space, enabling more effective modeling of the hierarchical relationships present in image text data. Furthermore, we introduce a sparsely gated Mixture of Experts (MoE) mechanism tailored for semantic alignment, which enhances multimodal comprehension between images and text while improving efficiency. Extensive experiments demonstrate that HMVLA surpasses baseline methods in both accuracy and generalization. In addition, we validate its robustness by reconstructing datasets to further test cross domain adaptability.
- Abstract(参考訳): 視覚言語行動(VLA)モデルは、ロボット制御でマルチモーダル知覚をブリッジする大きな可能性を最近示している。
しかしながら、既存の手法は、訓練済みのビジョン・ランゲージ・モデル(VLM)を直接微調整し、VLAドメインのユニークなセマンティックアライメントの課題に完全に対処することなく、セマンティックおよび視覚的特徴を直接ポリシーネットワークに供給することが多い。
本稿では,視覚と言語に固有の階層構造を利用して,包括的セマンティックアライメントを実現する新しいVLAフレームワークであるHMVLAを提案する。
ユークリッド空間におけるアライメントを行う従来の手法とは異なり、HMVLAは双曲空間にマルチモーダルな特徴を組み込んでおり、画像テキストデータに存在する階層関係をより効果的にモデル化することができる。
さらに,画像とテキスト間のマルチモーダル理解を向上し,効率を向上する,セマンティックアライメントに適した疎密なMixture of Experts(MoE)機構を導入する。
大規模な実験により、HMVLAは精度と一般化の両方においてベースライン法を超越していることが示された。
さらに、データセットを再構築し、ドメイン間の適合性をさらにテストすることで、その堅牢性を検証する。
関連論文リスト
- MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP [21.89022894877594]
異種リモートセンシングと自然言語のセマンティクスを協調する新しいフレームワークMMLGNetを提案する。
CLIPのトレーニングパラダイムにインスパイアされた我々のアプローチは、高次元リモートセンシングデータと言語誘導解釈のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-13T10:44:37Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Large Body Language Models [1.9797215742507548]
本稿では,LBLM(Large Body Language Models)とLBLM-AVA(LBLMアーキテクチャ)を紹介する。このアーキテクチャは,Transformer-XL大言語モデルと並列化拡散モデルを組み合わせて,マルチモーダル入力(テキスト,音声,ビデオ)からヒューマンライクなジェスチャーを生成する。
LBLM-AVAは、Frecheのジェスチャー距離(FGD)を30%削減し、Frecheの知覚距離(Inception Distance)を25%改善し、ライフライクで文脈的に適切なジェスチャーを生成する上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-21T21:48:24Z) - LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-20T17:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。