論文の概要: Context-Based Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2403.04650v2
- Date: Fri, 8 Mar 2024 14:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 10:42:11.369913
- Title: Context-Based Multimodal Fusion
- Title(参考訳): コンテキストベースマルチモーダル融合
- Authors: Bilal Faye, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra
- Abstract要約: 我々は、コンテキストベースマルチモーダルフュージョン(CBMF)と呼ばれる革新的なモデルを提案する。
CBMFは、モダリティ融合とデータ分散アライメントを組み合わせたものである。
CBMFは、凍結可能な大規模な事前訓練モデルの使用を可能にする。
- 参考スコア(独自算出の注目度): 0.08192907805418585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fusion models, which effectively combine information from different
sources, are widely used in solving multimodal tasks. However, they have
significant limitations related to aligning data distributions across different
modalities. This challenge can lead to inconsistencies and difficulties in
learning robust representations. Alignment models, while specifically
addressing this issue, often require training "from scratch" with large
datasets to achieve optimal results, which can be costly in terms of resources
and time. To overcome these limitations, we propose an innovative model called
Context-Based Multimodal Fusion (CBMF), which combines both modality fusion and
data distribution alignment. In CBMF, each modality is represented by a
specific context vector, fused with the embedding of each modality. This
enables the use of large pre-trained models that can be frozen, reducing the
computational and training data requirements. Additionally, the network learns
to differentiate embeddings of different modalities through fusion with context
and aligns data distributions using a contrastive approach for self-supervised
learning. Thus, CBMF offers an effective and economical solution for solving
complex multimodal tasks.
- Abstract(参考訳): 異なるソースからの情報を効果的に組み合わせた融合モデルは、マルチモーダルタスクの解決に広く利用されている。
しかし、異なるモダリティ間でのデータ分散を調整することには、大きな制限がある。
この課題は、堅牢な表現を学ぶ上での矛盾と困難につながる可能性がある。
アライメントモデルは、特にこの問題に対処しながら、リソースと時間の観点からはコストがかかるが、最適な結果を得るためには、大きなデータセットで「スクラッチから」トレーニングする必要があることが多い。
これらの制約を克服するために,モダリティ融合とデータ分散アライメントを組み合わせたContext-based Multimodal Fusion (CBMF) と呼ばれる革新的なモデルを提案する。
CBMFでは、各モダリティは特定のコンテキストベクトルによって表現され、各モダリティの埋め込みと融合する。
これにより、凍結可能な大規模な事前学習モデルの使用が可能になり、計算およびトレーニングデータ要求が削減される。
さらに、ネットワークはコンテキストとの融合を通じて異なるモーダルの埋め込みを区別することを学び、自己教師型学習のための対照的なアプローチを用いてデータ分布を整列する。
したがって、CBMFは複雑なマルチモーダルタスクを解決するための効果的で経済的ソリューションを提供する。
関連論文リスト
- SpecRaGE: Robust and Generalizable Multi-view Spectral Representation Learning [9.393841121141076]
近年,多視点表現学習 (MvRL) が注目されている。
グラフラプラシアンベースのMvRL法は、マルチビューデータの表現に顕著な成功を収めた。
本稿では,グラフラプラシアン手法の強みを深層学習の力と統合した,新しい融合ベースのフレームワークであるtextitSpecRaGE$を紹介する。
論文 参考訳(メタデータ) (2024-11-04T14:51:35Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - Embed Everything: A Method for Efficiently Co-Embedding Multi-Modal
Spaces [3.0795668932789524]
マルチモーダル空間を包含する新しい,費用対効果の高いHTL戦略を提案する。
本手法は,すべてのコンポーネントに対する事前学習モデルを用いて,組込みを前処理することでコスト非効率を回避する。
共同画像・オーディオ埋め込み作業における本システムの利用を実証する。
論文 参考訳(メタデータ) (2021-10-09T15:39:27Z) - MPRNet: Multi-Path Residual Network for Lightweight Image Super
Resolution [2.3576437999036473]
軽量SRにおけるSOTA性能を向上させる軽量超解像ネットワークを提案する。
提案アーキテクチャには新たなアテンション機構であるTwo-Fold Attention Moduleが含まれており,モデルの表現能力を最大化することができる。
論文 参考訳(メタデータ) (2020-11-09T17:11:15Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。