論文の概要: What is Multimodality?
- arxiv url: http://arxiv.org/abs/2103.06304v1
- Date: Wed, 10 Mar 2021 19:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 21:07:55.109314
- Title: What is Multimodality?
- Title(参考訳): マルチモダリティとは?
- Authors: Letitia Parcalabescu, Nils Trost, Anette Frank
- Abstract要約: 本稿では,機械学習時代には不適当であることを示すマルチモダリティの古き良き定義について述べる。
マルチモーダル機械学習の文脈における(多重)モダリティの新しいタスク相対的定義を提案する。
- 参考スコア(独自算出の注目度): 13.922507071009958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last years have shown rapid developments in the field of multimodal
machine learning, combining e.g., vision, text or speech. In this position
paper we explain how the field uses outdated definitions of multimodality that
prove unfit for the machine learning era. We propose a new task-relative
definition of (multi)modality in the context of multimodal machine learning
that focuses on representations and information that are relevant for a given
machine learning task. With our new definition of multimodality we aim to
provide a missing foundation for multimodal research, an important component of
language grounding and a crucial milestone towards NLU.
- Abstract(参考訳): 近年は、ビジョン、テキスト、スピーチなどを組み合わせたマルチモーダル機械学習の分野で急速な発展を見せています。
本稿では,機械学習の時代に不適であることを証明した,時代遅れのマルチモーダリティの定義をどう利用するかを説明する。
与えられた機械学習タスクに関連する表現と情報に焦点を当てたマルチモーダル機械学習の文脈における(マルチ)モダリティの新しいタスク相対性定義を提案する。
新しいマルチモーダルの定義では、マルチモーダル研究の欠落基盤、言語基盤の重要な構成要素、そしてNLUにとって重要なマイルストーンを提供することを目指しています。
関連論文リスト
- LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - On the Computational Benefit of Multimodal Learning [3.4991031406102238]
特定の条件下では、マルチモーダル学習は計算量で指数関数的に一助学習を上回ることが示される。
具体的には,一助学習のためのNPハードな学習タスクを提案するが,時間内にはマルチモーダルアルゴリズムによって解ける。
論文 参考訳(メタデータ) (2023-09-25T00:20:50Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Revisit Multimodal Meta-Learning through the Lens of Multi-Task Learning [33.19179706038397]
マルチモーダルなメタラーニングは、その設定を多様なマルチモーダルなタスク分布に一般化することで、従来の数発メタラーニングを拡張した最近の問題である。
これまでの研究では、マルチモーダル分布で訓練された1つのメタラーナーは、個々の単調分布で訓練された複数のメタラーナーを上回ることがあると主張している。
まず,マイクロレベルで異なるモードのタスク間の知識伝達を定量化する手法を提案する。
第二に、マルチタスク学習におけるハードパラメータ共有と関連する作業の新たな解釈から着想を得た、新しいマルチモーダルメタラーンを提案する。
論文 参考訳(メタデータ) (2021-10-27T06:23:45Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。