論文の概要: Hyperbolic Learning with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2408.05097v1
- Date: Fri, 9 Aug 2024 14:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:27:33.623965
- Title: Hyperbolic Learning with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いた双曲学習
- Authors: Paolo Mandica, Luca Franco, Konstantinos Kallidromitis, Suzanne Petryk, Fabio Galasso,
- Abstract要約: BLIP-2アーキテクチャを用いたパラメータ(ビリオン)とトレーニングの複雑さの観点から,マルチモーダル双曲モデルを桁違いにスケールする上での課題に対処する。
本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。
- 参考スコア(独自算出の注目度): 8.98815579836401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperbolic embeddings have demonstrated their effectiveness in capturing measures of uncertainty and hierarchical relationships across various deep-learning tasks, including image segmentation and active learning. However, their application in modern vision-language models (VLMs) has been limited. A notable exception is MERU, which leverages the hierarchical properties of hyperbolic space in the CLIP ViT-large model, consisting of hundreds of millions parameters. In our work, we address the challenges of scaling multi-modal hyperbolic models by orders of magnitude in terms of parameters (billions) and training complexity using the BLIP-2 architecture. Although hyperbolic embeddings offer potential insights into uncertainty not present in Euclidean embeddings, our analysis reveals that scaling these models is particularly difficult. We propose a novel training strategy for a hyperbolic version of BLIP-2, which allows to achieve comparable performance to its Euclidean counterpart, while maintaining stability throughout the training process and showing a meaningful indication of uncertainty with each embedding.
- Abstract(参考訳): ハイパーボリック埋め込みは、画像セグメンテーションやアクティブラーニングを含む様々なディープラーニングタスクにおける不確実性や階層的関係の計測において、その効果を実証している。
しかし、現代の視覚言語モデル(VLM)における応用は限られている。
特筆すべき例外はMERUであり、これはCLIP ViT-largeモデルにおける双曲空間の階層的特性を活用している。
本稿では,パラメータ(ビリオン)の桁数によるマルチモーダル双曲モデルのスケーリングとBLIP-2アーキテクチャを用いた学習複雑性について述べる。
双曲的埋め込みはユークリッド埋め込みに存在しない不確実性についての潜在的な洞察を与えるが、我々の分析はこれらのモデルのスケーリングが特に困難であることを明らかにしている。
本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Tasks Makyth Models: Machine Learning Assisted Surrogates for Tipping
Points [0.0]
本稿では,複雑なシステムの創発的挙動におけるヒント点を検出するための機械学習支援フレームワークを提案する。
我々は、異なるスケールで創発的ダイナミクスのための縮小次モデルを構築した。
異なるモデルの使用と、それらを学ぶための努力とは対照的です。
論文 参考訳(メタデータ) (2023-09-25T17:58:23Z) - Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based
Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。
粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。
埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文 参考訳(メタデータ) (2023-07-14T17:06:49Z) - Hyperbolic Representation Learning: Revisiting and Advancing [43.1661098138936]
本稿では,現在普及しているhlmを精査する位置追跡機構を導入し,学習された表現が準最適で不満足であることを明らかにする。
本稿では,ノードの双曲的距離から推定されるコストフリーな階層的情報を原点に組み込むことにより,シンプルで効果的な情報埋め込み手法であるハイボリックインフォメーション(HIE)を提案する。
提案手法は, 競合するベースラインに比べて最大21.4%向上した。
論文 参考訳(メタデータ) (2023-06-15T13:25:39Z) - HMSN: Hyperbolic Self-Supervised Learning by Clustering with Ideal
Prototypes [7.665392786787577]
プロトタイプに基づくクラスタリング手法の自己教師付き表現学習には,双曲表現空間を用いる。
我々はMasked Siamese Networksを拡張し、双曲空間のPoincar'eボールモデルで操作する。
従来の手法とは異なり、エンコーダネットワークの出力における双曲空間に投影し、双曲投影ヘッドを利用して、下流タスクに使用される表現が双曲的であることを保証する。
論文 参考訳(メタデータ) (2023-05-18T12:38:40Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Bi-level Doubly Variational Learning for Energy-based Latent Variable
Models [46.75117861209482]
エネルギーベース潜在変数モデル(EBLVM)は、従来のエネルギーベースモデルよりも表現力が高い。
EBLVMの学習を容易にするために,バイレベル二重変分学習(BiDVL)を提案する。
本モデルは,関連作品よりも印象的な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T04:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。