論文の概要: HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.20322v1
- Date: Thu, 23 Oct 2025 08:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.54019
- Title: HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
- Title(参考訳): HyperET: マルチモーダル大言語モデルのための双曲空間の効率的なトレーニング
- Authors: Zelin Peng, Zhengqin Xu, Qingyang Liu, Xiaokang Yang, Wei Shen,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
- 参考スコア(独自算出の注目度): 50.31704374968706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal large language models (MLLMs) have emerged as a transformative approach for aligning visual and textual understanding. They typically require extremely high computational resources (e.g., thousands of GPUs) for training to achieve cross-modal alignment at multi-granularity levels. We argue that a key source of this inefficiency lies in the vision encoders they widely equip with, e.g., CLIP and SAM, which lack the alignment with language at multi-granularity levels. To address this issue, in this paper, we leverage hyperbolic space, which inherently models hierarchical levels and thus provides a principled framework for bridging the granularity gap between visual and textual modalities at an arbitrary granularity level. Concretely, we propose an efficient training paradigm for MLLMs, dubbed as HyperET, which can optimize visual representations to align with their textual counterparts at an arbitrary granularity level through dynamic hyperbolic radius adjustment in hyperbolic space. HyperET employs learnable matrices with M\"{o}bius multiplication operations, implemented via three effective configurations: diagonal scaling matrices, block-diagonal matrices, and banded matrices, providing a flexible yet efficient parametrization strategy. Comprehensive experiments across multiple MLLM benchmarks demonstrate that HyperET consistently improves both existing pre-training and fine-tuning MLLMs clearly with less than 1\% additional parameters.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
通常は、多粒度レベルでのクロスモーダルアライメントを達成するために、トレーニングのために非常に高い計算リソース(例えば、数千のGPU)を必要とする。
この非効率性の鍵となる要因は、多粒度レベルでの言語との整合性に欠ける視覚エンコーダである、例えば、CLIP、SAMである。
この問題に対処するために,本論文では,階層レベルを本質的にモデル化した双曲空間を活用し,任意の粒度レベルで視覚的・テキスト的モダリティ間の粒度ギャップを埋めるための基本的枠組みを提供する。
具体的には,ハイパーレット(HyperET)と呼ばれるMLLMの効率的なトレーニングパラダイムを提案し,ハイパーボリック空間における動的双曲半径調整により,視覚表現を任意の粒度レベルでテキスト表現と整合させることができる。
HyperETは学習可能な行列とM\"{o}bius乗算演算を採用し、対角スケーリング行列、ブロック対角行列、バンド行列の3つの効果的な構成によって実装され、柔軟で効率的なパラメトリゼーション戦略を提供する。
複数のMLLMベンチマークの総合的な実験により、HyperETは既存の事前学習と微調整両方のMLLMを1\%以下のパラメータで確実に改善することを示した。
関連論文リスト
- OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-09-16T11:33:20Z) - M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering [21.75002972755496]
マルチモーダル・インコンテキスト・ラーニング(ICL)は、LVLM(Large Vision-Language Models)と、複数のユーザが提供するデモを通じて新しいタスクに適応する能力を備えている。
しかし、その効果はマルチモーダル入力のトークン集約性や、クロスモーダルな数ショット推論の複雑さによって制約されている。
textbfM$2$IVは、明示的なトークンレベルのデモを学習可能なマルチモーダル・インコンテキストベクトルの集合に置き換える新しい表現工学手法である。
論文 参考訳(メタデータ) (2025-04-06T22:02:21Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [15.449472477182061]
視覚と言語相互作用の現在のアプローチは、自己注意に基づく方法と、相互注意に基づく方法の2つのカテゴリに分類される。
MLLMの自己注意機構を複合注意機構に変更した。
EE-MLLMは、限られたトレーニングデータでFlamingoを著しく上回り、H800 GPUでプリフィル時間を79msに短縮する。
本稿では,EE-MLLM-Fという学習不要な変種について述べる。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。