Fugu-MT 論文翻訳(概要): Hyperbolic Learning with Multimodal Large Language Models

論文の概要: Hyperbolic Learning with Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2408.05097v1
Date: Fri, 9 Aug 2024 14:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 15:27:33.623965
Title: Hyperbolic Learning with Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルを用いた双曲学習
Authors: Paolo Mandica, Luca Franco, Konstantinos Kallidromitis, Suzanne Petryk, Fabio Galasso,
Abstract要約: BLIP-2アーキテクチャを用いたパラメータ(ビリオン)とトレーニングの複雑さの観点から,マルチモーダル双曲モデルを桁違いにスケールする上での課題に対処する。本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。
参考スコア（独自算出の注目度）: 8.98815579836401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hyperbolic embeddings have demonstrated their effectiveness in capturing measures of uncertainty and hierarchical relationships across various deep-learning tasks, including image segmentation and active learning. However, their application in modern vision-language models (VLMs) has been limited. A notable exception is MERU, which leverages the hierarchical properties of hyperbolic space in the CLIP ViT-large model, consisting of hundreds of millions parameters. In our work, we address the challenges of scaling multi-modal hyperbolic models by orders of magnitude in terms of parameters (billions) and training complexity using the BLIP-2 architecture. Although hyperbolic embeddings offer potential insights into uncertainty not present in Euclidean embeddings, our analysis reveals that scaling these models is particularly difficult. We propose a novel training strategy for a hyperbolic version of BLIP-2, which allows to achieve comparable performance to its Euclidean counterpart, while maintaining stability throughout the training process and showing a meaningful indication of uncertainty with each embedding.
Abstract（参考訳）: ハイパーボリック埋め込みは、画像セグメンテーションやアクティブラーニングを含む様々なディープラーニングタスクにおける不確実性や階層的関係の計測において、その効果を実証している。しかし、現代の視覚言語モデル(VLM)における応用は限られている。特筆すべき例外はMERUであり、これはCLIP ViT-largeモデルにおける双曲空間の階層的特性を活用している。本稿では,パラメータ(ビリオン)の桁数によるマルチモーダル双曲モデルのスケーリングとBLIP-2アーキテクチャを用いた学習複雑性について述べる。双曲的埋め込みはユークリッド埋め込みに存在しない不確実性についての潜在的な洞察を与えるが、我々の分析はこれらのモデルのスケーリングが特に困難であることを明らかにしている。本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。

関連論文リスト

Hyperbolic Deep Learning for Foundation Models: A Survey [16.14776172953206]
大量のデータセットに事前トレーニングされたファンデーションモデルは、さまざまな下流タスクで顕著な成功を収めた。最近の進歩は、基礎モデルを強化するために双曲型ニューラルネットワークを活用している。本稿では,双曲型ニューラルネットワークとその基盤モデルの開発について概観する。
論文参考訳（メタデータ） (2025-07-23T09:50:17Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
HELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts [23.011684464345294]
我々はHypErbolic Large Language ModelsのファミリーであるHELMを紹介する。 HELM-MICEでは,双曲型マルチヘッド潜在注意法を開発した。両方のモデルに対して、回転位置符号化と RMS 正規化の本質的な双曲的等価性を開発する。
論文参考訳（メタデータ） (2025-05-30T15:42:42Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU [50.9588132578029]
本稿では,双曲型コントラスト学習における機械学習について検討する。我々は、画像とテキストを双曲空間に埋め込んだモデルであるMERUにアライメントを適用し、セマンティック階層をよりよくキャプチャする。提案手法では,双曲空間の特異性を利用したエンテーメントキャリブレーションやノルム正規化など,双曲特異成分を導入している。
論文参考訳（メタデータ） (2025-03-19T12:47:37Z)
Teaching Metric Distance to Autoregressive Multimodal Foundational Models [21.894600900013316]
DIST2Lossは自動回帰離散モデルの学習を目的とした遠隔認識フレームワークである。 DIST2Lossは、固有距離測定値から派生した指数関数的な家族分布を離散的なカテゴリー最適化ターゲットに変換する。経験的評価は多様なマルチモーダルアプリケーションにおいて一貫した性能向上を示す。
論文参考訳（メタデータ） (2025-03-04T08:14:51Z)
Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文参考訳（メタデータ） (2025-02-03T17:59:45Z)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-12-10T17:06:41Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文参考訳（メタデータ） (2024-07-08T17:09:39Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Tasks Makyth Models: Machine Learning Assisted Surrogates for Tipping Points [0.0]
本稿では,複雑なシステムの創発的挙動におけるヒント点を検出するための機械学習支援フレームワークを提案する。我々は、異なるスケールで創発的ダイナミクスのための縮小次モデルを構築した。異なるモデルの使用と、それらを学ぶための努力とは対照的です。
論文参考訳（メタデータ） (2023-09-25T17:58:23Z)
Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文参考訳（メタデータ） (2023-07-14T17:06:49Z)
Hyperbolic Representation Learning: Revisiting and Advancing [43.1661098138936]
本稿では,現在普及しているhlmを精査する位置追跡機構を導入し,学習された表現が準最適で不満足であることを明らかにする。本稿では,ノードの双曲的距離から推定されるコストフリーな階層的情報を原点に組み込むことにより,シンプルで効果的な情報埋め込み手法であるハイボリックインフォメーション(HIE)を提案する。提案手法は, 競合するベースラインに比べて最大21.4%向上した。
論文参考訳（メタデータ） (2023-06-15T13:25:39Z)
HMSN: Hyperbolic Self-Supervised Learning by Clustering with Ideal Prototypes [7.665392786787577]
プロトタイプに基づくクラスタリング手法の自己教師付き表現学習には,双曲表現空間を用いる。我々はMasked Siamese Networksを拡張し、双曲空間のPoincar'eボールモデルで操作する。従来の手法とは異なり、エンコーダネットワークの出力における双曲空間に投影し、双曲投影ヘッドを利用して、下流タスクに使用される表現が双曲的であることを保証する。
論文参考訳（メタデータ） (2023-05-18T12:38:40Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Bi-level Doubly Variational Learning for Energy-based Latent Variable Models [46.75117861209482]
エネルギーベース潜在変数モデル(EBLVM)は、従来のエネルギーベースモデルよりも表現力が高い。 EBLVMの学習を容易にするために,バイレベル二重変分学習(BiDVL)を提案する。本モデルは,関連作品よりも印象的な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-03-24T04:13:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。