論文の概要: Multimodal Representation Learning using Adaptive Graph Construction
- arxiv url: http://arxiv.org/abs/2410.06395v1
- Date: Tue, 8 Oct 2024 21:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:59:12.511820
- Title: Multimodal Representation Learning using Adaptive Graph Construction
- Title(参考訳): 適応グラフ構築を用いたマルチモーダル表現学習
- Authors: Weichen Huang,
- Abstract要約: マルチモーダルコントラスト学習は、画像やテキストなどの異種ソースからのデータをレバーゲイトすることでニューラルネットワークを訓練する。
任意の数のモダライトから表現を学習できる新しいコントラスト学習フレームワークであるAutoBINDを提案する。
本稿では,AutoBINDが従来の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.5221459608786241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal contrastive learning train neural networks by levergaing data from heterogeneous sources such as images and text. Yet, many current multimodal learning architectures cannot generalize to an arbitrary number of modalities and need to be hand-constructed. We propose AutoBIND, a novel contrastive learning framework that can learn representations from an arbitrary number of modalites through graph optimization. We evaluate AutoBIND on Alzhiemer's disease detection because it has real-world medical applicability and it contains a broad range of data modalities. We show that AutoBIND outperforms previous methods on this task, highlighting the generalizablility of the approach.
- Abstract(参考訳): マルチモーダルコントラスト学習は、画像やテキストなどの異種ソースからのデータをレバーゲイトすることでニューラルネットワークを訓練する。
しかし、現在の多くのマルチモーダル学習アーキテクチャは任意の数のモダリティに一般化できず、手作業で構築する必要がある。
グラフ最適化により任意の数のモダライトから表現を学習できる新しいコントラスト学習フレームワークであるAutoBINDを提案する。
本稿では,Alzhiemer 病の診断における AutoBIND の評価を行った。
本稿では,AutoBINDが従来の手法よりも優れていることを示す。
関連論文リスト
- GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ
我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文 参考訳(メタデータ) (2024-07-08T01:06:13Z) - Can Text-to-image Model Assist Multi-modal Learning for Visual
Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。
以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-02-14T09:21:00Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Multi-modal Multi-kernel Graph Learning for Autism Prediction and
Biomarker Discovery [29.790200009136825]
本稿では,マルチモーダル統合の過程におけるモダリティ間の負の影響を相殺し,グラフから異種情報を抽出する手法を提案する。
本手法は,Autism Brain Imaging Data Exchange (ABIDE) データセットを用いて評価し,最先端の手法よりも優れている。
また,自閉症に関連する差別的脳領域を本モデルにより同定し,自閉症の病態研究の指針を提供する。
論文 参考訳(メタデータ) (2023-03-03T07:09:17Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Convolutional Learning on Multigraphs [153.20329791008095]
我々は、多グラフ上の畳み込み情報処理を開発し、畳み込み多グラフニューラルネットワーク(MGNN)を導入する。
情報拡散の複雑なダイナミクスを多グラフのエッジのクラス間で捉えるために、畳み込み信号処理モデルを定式化する。
我々は,計算複雑性を低減するため,サンプリング手順を含むマルチグラフ学習アーキテクチャを開発した。
導入されたアーキテクチャは、最適な無線リソース割り当てとヘイトスピーチローカライゼーションタスクに適用され、従来のグラフニューラルネットワークよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-09-23T00:33:04Z) - Geometric multimodal representation learning [13.159512679346687]
マルチモーダル学習手法は、複数のデータモダリティを融合し、この課題に対処する。
この分類に基づいてマルチモーダルグラフ学習のためのアルゴリズム的青写真を作成する。
この取り組みは、高度に複雑な実世界の問題に対して洗練されたマルチモーダルアーキテクチャの設計を標準化する道を開くことができる。
論文 参考訳(メタデータ) (2022-09-07T16:59:03Z) - Multi-modal Graph Learning for Disease Prediction [35.4310911850558]
病気予測のためのエンドツーエンドのマルチモーダルグラフ学習フレームワーク(MMGL)を提案する。
隣接行列を既存の手法として手動で定義する代わりに、潜在グラフ構造を適応グラフ学習の新しい方法によって捉えることができる。
論文 参考訳(メタデータ) (2021-07-01T03:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。