論文の概要: Multimodal Graph Learning for Generative Tasks
- arxiv url: http://arxiv.org/abs/2310.07478v1
- Date: Wed, 11 Oct 2023 13:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:40:51.061830
- Title: Multimodal Graph Learning for Generative Tasks
- Title(参考訳): 生成課題に対するマルチモーダルグラフ学習
- Authors: Minji Yoon, Jing Yu Koh, Bryan Hooi, Ruslan Salakhutdinov
- Abstract要約: マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
- 参考スコア(独自算出の注目度): 89.44810441463652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning combines multiple data modalities, broadening the types
and complexity of data our models can utilize: for example, from plain text to
image-caption pairs. Most multimodal learning algorithms focus on modeling
simple one-to-one pairs of data from two modalities, such as image-caption
pairs, or audio-text pairs. However, in most real-world settings, entities of
different modalities interact with each other in more complex and multifaceted
ways, going beyond one-to-one mappings. We propose to represent these complex
relationships as graphs, allowing us to capture data with any number of
modalities, and with complex relationships between modalities that can flexibly
vary from one sample to another. Toward this goal, we propose Multimodal Graph
Learning (MMGL), a general and systematic framework for capturing information
from multiple multimodal neighbors with relational structures among them. In
particular, we focus on MMGL for generative tasks, building upon pretrained
Language Models (LMs), aiming to augment their text generation with multimodal
neighbor contexts. We study three research questions raised by MMGL: (1) how
can we infuse multiple neighbor information into the pretrained LMs, while
avoiding scalability issues? (2) how can we infuse the graph structure
information among multimodal neighbors into the LMs? and (3) how can we
finetune the pretrained LMs to learn from the neighbor context in a
parameter-efficient manner? We conduct extensive experiments to answer these
three questions on MMGL and analyze the empirical results to pave the way for
future MMGL research.
- Abstract(参考訳): マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
ほとんどのマルチモーダル学習アルゴリズムは、画像キャプチャペアや音声テキストペアといった2つのモダリティから、単純な1対1のデータをモデル化することに焦点を当てている。
しかし、現実世界のほとんどの設定では、異なるモジュラリティのエンティティがより複雑で多面的な方法で相互作用し、1対1のマッピングを超える。
我々は、これらの複雑な関係をグラフとして表現し、任意のモダリティを持つデータと、あるサンプルから別のサンプルへ柔軟に変化するモダリティの間の複雑な関係をキャプチャできるようにする。
この目的に向けて,関係構造を持つ複数のマルチモーダルの隣人から情報を収集するための汎用的かつ体系的なフレームワークであるマルチモーダルグラフ学習(mmgl)を提案する。
特に,事前学習された言語モデル(lms)に基づく生成タスクのためのmmglに着目し,マルチモーダルな隣接コンテキストによるテキスト生成の強化を目標とした。
MMGLが提起した3つの研究課題について研究する:(1) 拡張性の問題を避けつつ、事前訓練されたLMに複数の隣接情報を注入する方法。
2) マルチモーダル近傍間のグラフ構造情報を lms にどのように組み込むことができるか?
そして(3)パラメータ効率のよい方法で、事前学習したlmsを近隣のコンテキストから学ぶには、どのように微調整すればよいのか?
MMGLに関するこれらの3つの質問に回答し、実験結果を分析し、今後のMMGL研究の道を開く。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multimodal Understanding Through Correlation Maximization and
Minimization [23.8764755753415]
マルチモーダルデータの本質的な性質について,以下の質問をすることで検討する。
汎用マルチモーダルデータのより構造化された潜在表現を学べるか?
数学的にも視覚的にも直感的に、潜在表現が何を捉えているのかを理解できますか?
論文 参考訳(メタデータ) (2023-05-04T19:53:05Z) - Self-Supervised Multimodal Learning: A Survey [23.526389924804207]
マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。
高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。
大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
論文 参考訳(メタデータ) (2023-03-31T16:11:56Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。