論文の概要: DRDF: Determining the Importance of Different Multimodal Information
with Dual-Router Dynamic Framework
- arxiv url: http://arxiv.org/abs/2107.09909v1
- Date: Wed, 21 Jul 2021 07:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:14:45.290431
- Title: DRDF: Determining the Importance of Different Multimodal Information
with Dual-Router Dynamic Framework
- Title(参考訳): DRDF:デュアルルータ動的フレームワークによる異なるマルチモーダル情報の重要性の決定
- Authors: Haiwen Hong, Xuan Jin, Yin Zhang, Yunqing Hu, Jingfeng Zhang, Yuan He,
Hui Xue
- Abstract要約: マルチモーダルタスクでは、異なる入力ケースに対して、テキストと画像のモーダル情報の重要性が異なる。
高性能で汎用性の高いDual-Layer Dynamic Framework(DRDF)を提案する。
DRDFはDual-Layer、MWF、エキスパートとエキスパートの融合ユニットで構成されている。
- 参考スコア(独自算出の注目度): 26.090419694326823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimodal tasks, we find that the importance of text and image modal
information is different for different input cases, and for this motivation, we
propose a high-performance and highly general Dual-Router Dynamic Framework
(DRDF), consisting of Dual-Router, MWF-Layer, experts and expert fusion unit.
The text router and image router in Dual-Router accept text modal information
and image modal information, and use MWF-Layer to determine the importance of
modal information. Based on the result of the determination, MWF-Layer
generates fused weights for the fusion of experts. Experts are model backbones
that match the current task. DRDF has high performance and high generality, and
we have tested 12 backbones such as Visual BERT on multimodal dataset Hateful
memes, unimodal dataset CIFAR10, CIFAR100, and TinyImagenet. Our DRDF
outperforms all the baselines. We also verified the components of DRDF in
detail by ablations, compared and discussed the reasons and ideas of DRDF
design.
- Abstract(参考訳): マルチモーダルタスクでは,テキストと画像のモーダル情報の重要性が入力ケースによって異なることが判明し,このモチベーションのために,デュアルルータ,mwf層,エキスパート,エキスパート融合ユニットからなる高性能かつ高汎用なデュアルルータ動的フレームワーク(drdf)を提案する。
Dual-Routerのテキストルータと画像ルータは、テキストモーダル情報と画像モーダル情報を受け入れ、MWF-Layerを用いてモーダル情報の重要性を決定する。
決定の結果に基づき、MWF-Layerは専門家の融合のために融合重量を生成する。
エキスパートは現在のタスクにマッチするモデルバックボーンです。
DRDFは高い性能と汎用性を持ち、マルチモーダルデータセットHateful Memes上のVisual BERT、非モーダルデータセットCIFAR10、CIFAR100、TinyImagenetなどの12のバックボーンをテストした。
私たちのDRDFはすべてのベースラインを上回ります。
また,DRDF の設計の理由と考え方を整理して,DRDF の構成要素を詳細に検証した。
関連論文リスト
- Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - A Dual-way Enhanced Framework from Text Matching Point of View for
Multimodal Entity Linking [18.742934572771677]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Dual-Gated Fusion with Prefix-Tuning for Multi-Modal Relation Extraction [13.454953507205278]
マルチモーダル関係抽出は、視覚的手がかりを含むテキスト中の2つの実体間の関係を特定することを目的としている。
本稿では,テキスト,エンティティペア,画像/オブジェクトのより深い相関関係をよりよく捉えるための新しいMMREフレームワークを提案する。
本手法は, 少数の状況においても, 強力な競合相手と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-06-19T15:31:34Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z) - DRBANET: A Lightweight Dual-Resolution Network for Semantic Segmentation
with Boundary Auxiliary [15.729067807920236]
本稿では,境界情報を用いてセマンティックセグメンテーション結果を洗練することを目的とした,DRBANetと呼ばれる軽量なデュアルレゾリューションネットワークを提案する。
DRBANetは、高分解能分岐(HRB)と低分解能分岐(LRB)を含むデュアル並列アーキテクチャを採用している。
CityscapesとCamVidデータセットの実験により,セグメント化精度と実行効率との有望なトレードオフを実現することができた。
論文 参考訳(メタデータ) (2021-10-31T14:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。