論文の概要: Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer
- arxiv url: http://arxiv.org/abs/2503.15352v1
- Date: Wed, 19 Mar 2025 15:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:05.739107
- Title: Leveraging Perfect Multimodal Alignment and Gaussian Assumptions for Cross-modal Transfer
- Title(参考訳): 完全マルチモーダルアライメントの活用と多モーダル移動におけるガウス推定
- Authors: Abhi Kamboj, Minh N. Do,
- Abstract要約: 一定の条件下で完全なアライメントが達成可能であることを示す。
次に、クロスモーダル転送と呼ばれるアライメントの特定の応用に対処する。
表現空間から各モダリティを表す異なる部分空間にデータポイントを投影することにより、クロスモーダル転送がどのように実行できるかを示す。
- 参考スコア(独自算出の注目度): 8.023689344488105
- License:
- Abstract: Multimodal alignment aims to construct a joint latent vector space where two modalities representing the same concept map to the same vector. We formulate this as an inverse problem and show that under certain conditions perfect alignment can be achieved. We then address a specific application of alignment referred to as cross-modal transfer. Unsupervised cross-modal transfer aims to leverage a model trained with one modality to perform inference on another modality, without any labeled fine-tuning on the new modality. Assuming that semantic classes are represented as a mixture of Gaussians in the latent space, we show how cross-modal transfer can be performed by projecting the data points from the representation space onto different subspaces representing each modality. Our experiments on synthetic multimodal Gaussian data verify the effectiveness of our perfect alignment and cross-modal transfer method. We hope these findings inspire further exploration of the applications of perfect alignment and the use of Gaussian models for cross-modal learning.
- Abstract(参考訳): マルチモーダルアライメントは、同じ概念を表す2つのモジュラリティが同じベクトルにマップされる連結潜在ベクトル空間を構築することを目的としている。
これを逆問題として定式化し、一定の条件下で完全なアライメントが達成可能であることを示す。
次に、クロスモーダル転送と呼ばれるアライメントの特定の応用に対処する。
教師なしのクロスモーダル転送は、新しいモーダルを微調整することなく、あるモーダルで訓練されたモデルを活用して別のモーダルで推論することを目的としている。
意味クラスが潜在空間におけるガウスの混合として表現されることを仮定すると、表現空間から各モダリティを表す異なる部分空間にデータポイントを射影することで、相互モダル移動がおこなわれることを示す。
合成多モードガウスデータを用いた実験により, 完全アライメント法とクロスモーダルトランスファー法の有効性が検証された。
これらの発見が完全なアライメントのさらなる探究と、モーダル横断学習におけるガウスモデルの利用を促すことを願っている。
関連論文リスト
- Conditional Distribution Quantization in Machine Learning [83.54039134248231]
条件予測 mathbbE(Y Mid X) はしばしば、マルチモーダル条件分布の複雑さを捉えることに失敗する(Y Mid X)
我々はn点条件量子化(n-point Conditional Quantizations)-勾配降下により学習可能なXの関数写像--近似数学L(Y mid X)-を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:28:24Z) - AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment [37.213291617683325]
クロスモーダルアライメントはマルチモーダル表現融合に不可欠である。
マルチモーダル核融合の効率的かつ効率的な方法であるAlignMambaを提案する。
完全かつ不完全なマルチモーダル核融合タスクの実験は,提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-12-01T14:47:41Z) - X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios [105.16073169351299]
本稿では,点雲と多視点画像の連成分布をモデル化する新しいフレームワーク,X-DRIVEを提案する。
2つのモダリティの異なる幾何学的空間を考えると、X-DRIVE条件は対応する局所領域上の各モダリティの合成である。
X-DRIVEはテキスト、バウンディングボックス、画像、点雲を含む多レベル入力条件を通じて制御可能な生成を可能にする。
論文 参考訳(メタデータ) (2024-11-02T03:52:12Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Geometrically Aligned Transfer Encoder for Inductive Transfer in
Regression Tasks [5.038936775643437]
微分幾何学に基づく新しい移動法,すなわち幾何学的配向変換(GATE)を提案する。
すべての任意の点が重なり合う領域の局所平坦な座標に写像されることを保証するために、タスクのペア間の適切な微分同相性を見つけ、ソースからターゲットデータへの知識の伝達を可能にする。
GATEは従来の手法より優れ、様々な分子グラフデータセットの潜伏空間と外挿領域の両方で安定した振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-10T07:11:25Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Implicit Bayes Adaptation: A Collaborative Transport Approach [25.96406219707398]
領域適応は、高次元ユークリッド空間に埋め込まれた非線型部分多様体に本質的に横たわる各データの固有表現に根付いていることを示す。
これは暗黙のベイズ的フレームワークに準じるものであり、ドメイン適応に対するより堅牢で優れたパフォーマンスのアプローチで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-04-17T14:13:40Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。