論文の概要: Geometric multimodal representation learning
- arxiv url: http://arxiv.org/abs/2209.03299v1
- Date: Wed, 7 Sep 2022 16:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:00:19.669565
- Title: Geometric multimodal representation learning
- Title(参考訳): 幾何学的マルチモーダル表現学習
- Authors: Yasha Ektefaie, George Dasoulas, Ayush Noori, Maha Farhat, Marinka
Zitnik
- Abstract要約: マルチモーダル学習手法は、複数のデータモダリティを融合し、この課題に対処する。
この分類に基づいてマルチモーダルグラフ学習のためのアルゴリズム的青写真を作成する。
この取り組みは、高度に複雑な実世界の問題に対して洗練されたマルチモーダルアーキテクチャの設計を標準化する道を開くことができる。
- 参考スコア(独自算出の注目度): 13.159512679346687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph-centric artificial intelligence (graph AI) has achieved remarkable
success in modeling interacting systems prevalent in nature, from dynamical
systems in biology to particle physics. The increasing heterogeneity of data
calls for graph neural architectures that can combine multiple inductive
biases. However, combining data from various sources is challenging because
appropriate inductive bias may vary by data modality. Multimodal learning
methods fuse multiple data modalities while leveraging cross-modal dependencies
to address this challenge. Here, we survey 140 studies in graph-centric AI and
realize that diverse data types are increasingly brought together using graphs
and fed into sophisticated multimodal models. These models stratify into
image-, language-, and knowledge-grounded multimodal learning. We put forward
an algorithmic blueprint for multimodal graph learning based on this
categorization. The blueprint serves as a way to group state-of-the-art
architectures that treat multimodal data by choosing appropriately four
different components. This effort can pave the way for standardizing the design
of sophisticated multimodal architectures for highly complex real-world
problems.
- Abstract(参考訳): グラフ中心の人工知能(グラフAI)は、生物学の力学系から粒子物理学まで、自然界で広く使われている相互作用系をモデル化する上で大きな成功を収めた。
複数の帰納的バイアスを結合できるグラフニューラルネットワークのためのデータ呼び出しの多様性の増加。
しかし、適切な帰納バイアスがデータモダリティによって異なる可能性があるため、様々なソースからのデータを組み合わせることは困難である。
マルチモーダル学習手法は、複数のデータモダリティを融合し、この課題に対処する。
ここでは、グラフ中心のaiにおける140の研究を調査し、さまざまなデータ型がグラフを使って結合され、洗練されたマルチモーダルモデルに供給されることを認識します。
これらのモデルは、画像、言語、知識に基づくマルチモーダル学習に階層化される。
この分類に基づくマルチモーダルグラフ学習のためのアルゴリズム的青写真を構築した。
ブループリントは、適切な4つの異なるコンポーネントを選択することで、マルチモーダルデータを扱う最先端アーキテクチャをグループ化する手段として機能する。
この取り組みは、高度に複雑な実世界の問題に対する洗練されたマルチモーダルアーキテクチャの設計を標準化する道を開くことができる。
関連論文リスト
- Multimodal Representation Learning using Adaptive Graph Construction [0.5221459608786241]
マルチモーダルコントラスト学習は、画像やテキストなどの異種ソースからのデータをレバーゲイトすることでニューラルネットワークを訓練する。
任意の数のモダライトから表現を学習できる新しいコントラスト学習フレームワークであるAutoBINDを提案する。
本稿では,AutoBINDが従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-08T21:57:46Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Bond Graphs for multi-physics informed Neural Networks for multi-variate time series [6.775534755081169]
既存の手法は複雑な多分野・多領域現象のタスクには適用されない。
タスク固有モデルに入力可能な多物理インフォームド表現を生成するニューラルボンドグラフ(NBgE)を提案する。
論文 参考訳(メタデータ) (2024-05-22T12:30:25Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Convolutional Learning on Multigraphs [153.20329791008095]
我々は、多グラフ上の畳み込み情報処理を開発し、畳み込み多グラフニューラルネットワーク(MGNN)を導入する。
情報拡散の複雑なダイナミクスを多グラフのエッジのクラス間で捉えるために、畳み込み信号処理モデルを定式化する。
我々は,計算複雑性を低減するため,サンプリング手順を含むマルチグラフ学習アーキテクチャを開発した。
導入されたアーキテクチャは、最適な無線リソース割り当てとヘイトスピーチローカライゼーションタスクに適用され、従来のグラフニューラルネットワークよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-09-23T00:33:04Z) - Geometric Multimodal Deep Learning with Multi-Scaled Graph Wavelet
Convolutional Network [21.06669693699965]
マルチモーダルデータは、非常に異なる統計特性を持つ様々な領域のデータを統合することで、自然現象に関する情報を提供する。
マルチモーダルデータのモダリティ内およびモダリティ間情報の取得は,マルチモーダル学習法の基本的能力である。
非ユークリッド領域にディープラーニング手法を一般化することは、新たな研究分野である。
論文 参考訳(メタデータ) (2021-11-26T08:41:51Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。