論文の概要: GeoMM: On Geodesic Perspective for Multi-modal Learning
- arxiv url: http://arxiv.org/abs/2505.11216v1
- Date: Fri, 16 May 2025 13:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.06382
- Title: GeoMM: On Geodesic Perspective for Multi-modal Learning
- Title(参考訳): GeoMM:マルチモーダル学習のための測地学的視点について
- Authors: Shibin Mei, Hang Wang, Bingbing Ni,
- Abstract要約: 本稿では,マルチモーダル学習における測地線距離を新しい距離測定基準として導入する。
我々のアプローチは、現在のマルチモーダル学習に測地距離を適用するための包括的な戦略を取り入れている。
- 参考スコア(独自算出の注目度): 55.41612200877861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geodesic distance serves as a reliable means of measuring distance in nonlinear spaces, and such nonlinear manifolds are prevalent in the current multimodal learning. In these scenarios, some samples may exhibit high similarity, yet they convey different semantics, making traditional distance metrics inadequate for distinguishing between positive and negative samples. This paper introduces geodesic distance as a novel distance metric in multi-modal learning for the first time, to mine correlations between samples, aiming to address the limitations of common distance metric. Our approach incorporates a comprehensive series of strategies to adapt geodesic distance for the current multimodal learning. Specifically, we construct a graph structure to represent the adjacency relationships among samples by thresholding distances between them and then apply the shortest-path algorithm to obtain geodesic distance within this graph. To facilitate efficient computation, we further propose a hierarchical graph structure through clustering and combined with incremental update strategies for dynamic status updates. Extensive experiments across various downstream tasks validate the effectiveness of our proposed method, demonstrating its capability to capture complex relationships between samples and improve the performance of multimodal learning models.
- Abstract(参考訳): 測地距離は、非線形空間における距離を測定する信頼できる手段として機能し、そのような非線形多様体は、現在のマルチモーダル学習において一般的である。
これらのシナリオでは、いくつかのサンプルは高い類似性を示すが、異なる意味論を伝達し、従来の距離メトリクスは正と負のサンプルを区別するのに不十分である。
本稿では,多モード学習における測地線距離を新しい距離距離として導入し,サンプル間の相関関係を抽出し,共通距離距離の限界に対処することを目的とする。
我々のアプローチは、現在のマルチモーダル学習に測地距離を適用するための包括的な戦略を取り入れている。
具体的には,それらの間の距離をしきい値にすることで,サンプル間の隣接関係を表すグラフ構造を構築し,そのグラフ内の測地距離を求めるために最短パスアルゴリズムを適用した。
効率的な計算を容易にするために,クラスタリングによる階層グラフ構造を提案し,動的ステータス更新のための漸進的な更新戦略と組み合わせた。
提案手法の有効性を検証し、サンプル間の複雑な関係を捕捉し、マルチモーダル学習モデルの性能を向上させる能力を示す。
関連論文リスト
- RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data [14.097517115921184]
本稿では,ウェアラブル加速度センサを用いた運動基礎モデルの学習のための,自己指導型相対的コントラスト学習手法であるRelConを提案する。
まず、学習可能な距離尺度をトレーニングし、モチーフの類似性とドメイン固有の意味情報をキャプチャする。
我々は,ウェアラブルの動作データを用いた基礎モデルの,異なる評価課題における一般化可能性を示す最初の人物である。
論文 参考訳(メタデータ) (2024-11-27T23:51:53Z) - Hierarchical Joint Graph Learning and Multivariate Time Series
Forecasting [0.16492989697868887]
本稿では,相互依存を示すエッジを持つグラフにおいて,多変量信号をノードとして表現する方法を提案する。
我々はグラフニューラルネットワーク(GNN)とアテンションメカニズムを活用し、時系列データ内の基礎となる関係を効率的に学習する。
提案モデルの有効性を,長期予測タスク用に設計された実世界のベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2023-11-21T14:24:21Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - Data-heterogeneity-aware Mixing for Decentralized Learning [63.83913592085953]
グラフの混合重みとノード間のデータ不均一性の関係に収束の依存性を特徴付ける。
グラフが現在の勾配を混合する能力を定量化する計量法を提案する。
そこで本研究では,パラメータを周期的かつ効率的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T15:54:35Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。