Fugu-MT 論文翻訳(概要): MMGA: Multimodal Learning with Graph Alignment

論文の概要: MMGA: Multimodal Learning with Graph Alignment

arxiv url: http://arxiv.org/abs/2210.09946v1
Date: Tue, 18 Oct 2022 15:50:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 14:15:34.230871
Title: MMGA: Multimodal Learning with Graph Alignment
Title（参考訳）: MMGA:グラフアライメントによるマルチモーダル学習
Authors: Xuan Yang, Yang Yang
Abstract要約: 本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。 MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
参考スコア（独自算出の注目度）: 8.349066399479938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal pre-training breaks down the modality barriers and allows the individual modalities to be mutually augmented with information, resulting in significant advances in representation learning. However, graph modality, as a very general and important form of data, cannot be easily interacted with other modalities because of its non-regular nature. In this paper, we propose MMGA (Multimodal learning with Graph Alignment), a novel multimodal pre-training framework to incorporate information from graph (social network), image and text modalities on social media to enhance user representation learning. In MMGA, a multi-step graph alignment mechanism is proposed to add the self-supervision from graph modality to optimize the image and text encoders, while using the information from the image and text modalities to guide the graph encoder learning. We conduct experiments on the dataset crawled from Instagram. The experimental results show that MMGA works well on the dataset and improves the fans prediction task's performance. We release our dataset, the first social media multimodal dataset with graph, of 60,000 users labeled with specific topics based on 2 million posts to facilitate future research.
Abstract（参考訳）: マルチモーダル事前学習は、モダリティ障壁を分解し、個々のモダリティを情報と相互に拡張し、表現学習において大きな進歩をもたらす。しかしながら、グラフモダリティは、非常に一般的で重要なデータ形式であり、非正規性のため、他のモダリティと容易に相互作用できない。本稿では,グラフ(ソーシャルネットワーク),画像,テキストからの情報を取り込んでユーザ表現学習を促進するためのマルチモーダル事前学習フレームワークmmga(multimodal learning with graph alignment)を提案する。 mmgaでは、画像とテキストのエンコーダを最適化するためにグラフモダリティから自己スーパービジョンを追加し、画像とテキストモダリティの情報を用いてグラフエンコーダ学習をガイドする多段階グラフアライメント機構が提案されている。 Instagramからクロールしたデータセットの実験を行います。実験の結果,MMGAはデータセット上で良好に動作し,ファン予測タスクの性能が向上することがわかった。われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。

関連論文リスト

UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。 UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2025-02-02T14:04:53Z)
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。 InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。 Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文参考訳（メタデータ） (2024-10-09T17:56:15Z)
Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。 MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。 MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-06-24T05:14:09Z)
MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction [8.592259720470697]
脳障害予測のためのマルチモーダルグラフ深層学習フレームワークMM-GTUNetsを提案する。本稿では,報酬システムを用いて集団グラフを適応的に構築するMRRL(Modality Reward Representation Learning)を提案する。また,ACMGL(Adaptive Cross-Modal Graph Learning)を提案する。
論文参考訳（メタデータ） (2024-06-20T16:14:43Z)
When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文参考訳（メタデータ） (2023-12-16T08:14:11Z)
Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models [14.251972223585765]
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
論文参考訳（メタデータ） (2023-11-16T12:45:41Z)
Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。 GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文参考訳（メタデータ） (2023-04-30T21:22:35Z)
Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文参考訳（メタデータ） (2022-12-08T11:53:12Z)
Multi-modal Graph Learning for Disease Prediction [35.156975779372836]
マルチモーダルな疾患予測のためのエンドツーエンドマルチモーダルグラフ学習フレームワーク(MMGL)を提案する。手動でグラフを定義する代わりに、潜在グラフ構造は適応グラフ学習の効果的な方法によって取得される。 2つの疾患予測タスクに関する広範な実験群は、提案したMMGLがより良好な性能を発揮することを示した。
論文参考訳（メタデータ） (2022-03-11T12:33:20Z)
Data Augmentation for Deep Graph Learning: A Survey [66.04015540536027]
まず,グラフデータ拡張のための分類法を提案し,その拡張情報モダリティに基づいて関連研究を分類し,構造化されたレビューを提供する。 DGLにおける2つの課題(すなわち、最適グラフ学習と低リソースグラフ学習)に焦点を当て、グラフデータ拡張に基づく既存の学習パラダイムについて議論し、レビューする。
論文参考訳（メタデータ） (2022-02-16T18:30:33Z)
GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。 3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文参考訳（メタデータ） (2020-06-17T16:18:35Z)
Graph Representation Learning via Graphical Mutual Information Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文参考訳（メタデータ） (2020-02-04T08:33:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。