論文の概要: MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention
- arxiv url: http://arxiv.org/abs/2507.22805v1
- Date: Wed, 30 Jul 2025 16:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.322635
- Title: MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention
- Title(参考訳): MoCHA: MoEコネクタと階層型グループアテンションによる高度なビジョンランゲージ推論
- Authors: Yuqi Pang, Bowen Yang, Yun Cao, Fan Rong, Xiaoyu Li, Chen He,
- Abstract要約: 視覚大言語モデル(VLLM)は、高度な視覚エンコーダを導入し、視覚モデルをスケールアップすることによって、複雑できめ細かな視覚情報を扱うことに重点を置いている。
本研究では,これらの問題に対処する新しい視覚的枠組みであるMoCHAを提案する。
我々のフレームワークは、4つの視覚バックボーン(CLIP、SigLIP、DINOv2、ConvNeXt)を統合して補完的な視覚的特徴を抽出し、疎密なMixture of Experts Connectors (MoECs)モジュールを備えている。
MoECsモジュールで符号化された視覚情報の冗長性や不十分性を軽減するため、我々は、
- 参考スコア(独自算出の注目度): 18.000894283686176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision large language models (VLLMs) are focusing primarily on handling complex and fine-grained visual information by incorporating advanced vision encoders and scaling up visual models. However, these approaches face high training and inference costs, as well as challenges in extracting visual details, effectively bridging across modalities. In this work, we propose a novel visual framework, MoCHA, to address these issues. Our framework integrates four vision backbones (i.e., CLIP, SigLIP, DINOv2 and ConvNeXt) to extract complementary visual features and is equipped with a sparse Mixture of Experts Connectors (MoECs) module to dynamically select experts tailored to different visual dimensions. To mitigate redundant or insufficient use of the visual information encoded by the MoECs module, we further design a Hierarchical Group Attention (HGA) with intra- and inter-group operations and an adaptive gating strategy for encoded visual features. We train MoCHA on two mainstream LLMs (e.g., Phi2-2.7B and Vicuna-7B) and evaluate their performance across various benchmarks. Notably, MoCHA outperforms state-of-the-art open-weight models on various tasks. For example, compared to CuMo (Mistral-7B), our MoCHA (Phi2-2.7B) presents outstanding abilities to mitigate hallucination by showing improvements of 3.25% in POPE and to follow visual instructions by raising 153 points on MME. Finally, ablation studies further confirm the effectiveness and robustness of the proposed MoECs and HGA in improving the overall performance of MoCHA.
- Abstract(参考訳): 視覚大言語モデル(VLLM)は主に、高度な視覚エンコーダを導入し、視覚モデルをスケールアップすることによって、複雑できめ細かい視覚情報を扱うことに焦点を当てている。
しかしながら、これらのアプローチは、高いトレーニングと推論コスト、および視覚的詳細を抽出する際の課題に直面し、効果的にモダリティを橋渡しする。
本研究では,これらの問題に対処する新しい視覚的枠組みであるMoCHAを提案する。
我々のフレームワークは、4つの視覚バックボーン(CLIP、SigLIP、DINOv2、ConvNeXt)を統合して補完的な視覚的特徴を抽出し、異なる視覚次元に合わせた専門家を動的に選択するMixture of Experts Connectors (MoECs)モジュールを備えている。
また,MoECsモジュールによって符号化された視覚情報の冗長性や不十分性を軽減するため,グループ内およびグループ間操作による階層的グループ注意(HGA)と,符号化された視覚特徴に対する適応的ゲーティング戦略を設計する。
我々は、MoCHAを2つのメインストリームLCM(例えば、Phi2-2.7BとVicuna-7B)でトレーニングし、様々なベンチマークでその性能を評価する。
特に、MoCHAは様々なタスクにおいて最先端のオープンウェイトモデルより優れています。
例えば、CuMo (Mistral-7B) と比較して、我々のMoCHA (Phi2-2.7B) は、POPEの3.25%の改善を示し、MMEで153点を上げることで視覚指示に従うことで幻覚を緩和する優れた能力を示す。
最後に, Ablation study further confirmed the effectiveness and robustness of the proposed MoECs and HGA in improve the overall performance of MoCHA。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では、その後の注意機構をよりよく見る能力を高めるステップワイド・パッチ・マージ(SPM)を提案する。
コードはhttps://github.com/Yonghao-Yu/StepwisePatchMerging.comでリリースされた。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。