論文の概要: DRDF: Determining the Importance of Different Multimodal Information
with Dual-Router Dynamic Framework
- arxiv url: http://arxiv.org/abs/2107.09909v1
- Date: Wed, 21 Jul 2021 07:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:14:45.290431
- Title: DRDF: Determining the Importance of Different Multimodal Information
with Dual-Router Dynamic Framework
- Title(参考訳): DRDF:デュアルルータ動的フレームワークによる異なるマルチモーダル情報の重要性の決定
- Authors: Haiwen Hong, Xuan Jin, Yin Zhang, Yunqing Hu, Jingfeng Zhang, Yuan He,
Hui Xue
- Abstract要約: マルチモーダルタスクでは、異なる入力ケースに対して、テキストと画像のモーダル情報の重要性が異なる。
高性能で汎用性の高いDual-Layer Dynamic Framework(DRDF)を提案する。
DRDFはDual-Layer、MWF、エキスパートとエキスパートの融合ユニットで構成されている。
- 参考スコア(独自算出の注目度): 26.090419694326823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multimodal tasks, we find that the importance of text and image modal
information is different for different input cases, and for this motivation, we
propose a high-performance and highly general Dual-Router Dynamic Framework
(DRDF), consisting of Dual-Router, MWF-Layer, experts and expert fusion unit.
The text router and image router in Dual-Router accept text modal information
and image modal information, and use MWF-Layer to determine the importance of
modal information. Based on the result of the determination, MWF-Layer
generates fused weights for the fusion of experts. Experts are model backbones
that match the current task. DRDF has high performance and high generality, and
we have tested 12 backbones such as Visual BERT on multimodal dataset Hateful
memes, unimodal dataset CIFAR10, CIFAR100, and TinyImagenet. Our DRDF
outperforms all the baselines. We also verified the components of DRDF in
detail by ablations, compared and discussed the reasons and ideas of DRDF
design.
- Abstract(参考訳): マルチモーダルタスクでは,テキストと画像のモーダル情報の重要性が入力ケースによって異なることが判明し,このモチベーションのために,デュアルルータ,mwf層,エキスパート,エキスパート融合ユニットからなる高性能かつ高汎用なデュアルルータ動的フレームワーク(drdf)を提案する。
Dual-Routerのテキストルータと画像ルータは、テキストモーダル情報と画像モーダル情報を受け入れ、MWF-Layerを用いてモーダル情報の重要性を決定する。
決定の結果に基づき、MWF-Layerは専門家の融合のために融合重量を生成する。
エキスパートは現在のタスクにマッチするモデルバックボーンです。
DRDFは高い性能と汎用性を持ち、マルチモーダルデータセットHateful Memes上のVisual BERT、非モーダルデータセットCIFAR10、CIFAR100、TinyImagenetなどの12のバックボーンをテストした。
私たちのDRDFはすべてのベースラインを上回ります。
また,DRDF の設計の理由と考え方を整理して,DRDF の構成要素を詳細に検証した。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions [0.815557531820863]
本稿では,対象オブジェクトとレセプタクルの両方のイメージを検索するDual-Mode Multimodal Ranking Model (DM2RM)を提案する。
DM2RMを評価するために,数百のビルスケール環境から収集した実世界の画像を含む新しいデータセットを構築した。
DM2RMの標準化された実世界のDSRプラットフォームへの応用を実演する。
論文 参考訳(メタデータ) (2024-08-15T03:34:02Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description [44.033701878979805]
本稿では,リモートセンシング画像記述のための属性誘導型textbfMulti-Granularity Instruction Multimodal Model (MGIMM)を提案する。
MGIMMはマルチモーダルモデルで視覚領域と対応するテキスト属性の一貫性を学習する。
我々は,38,320個の領域属性対と23,463個の画像詳細記述対からなるデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-07T07:53:14Z) - A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。