Fugu-MT 論文翻訳(概要): DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework

論文の概要: DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework

arxiv url: http://arxiv.org/abs/2107.09909v1
Date: Wed, 21 Jul 2021 07:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-22 14:14:45.290431
Title: DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework
Title（参考訳）: DRDF:デュアルルータ動的フレームワークによる異なるマルチモーダル情報の重要性の決定
Authors: Haiwen Hong, Xuan Jin, Yin Zhang, Yunqing Hu, Jingfeng Zhang, Yuan He, Hui Xue
Abstract要約: マルチモーダルタスクでは、異なる入力ケースに対して、テキストと画像のモーダル情報の重要性が異なる。高性能で汎用性の高いDual-Layer Dynamic Framework(DRDF)を提案する。 DRDFはDual-Layer、MWF、エキスパートとエキスパートの融合ユニットで構成されている。
参考スコア（独自算出の注目度）: 26.090419694326823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In multimodal tasks, we find that the importance of text and image modal information is different for different input cases, and for this motivation, we propose a high-performance and highly general Dual-Router Dynamic Framework (DRDF), consisting of Dual-Router, MWF-Layer, experts and expert fusion unit. The text router and image router in Dual-Router accept text modal information and image modal information, and use MWF-Layer to determine the importance of modal information. Based on the result of the determination, MWF-Layer generates fused weights for the fusion of experts. Experts are model backbones that match the current task. DRDF has high performance and high generality, and we have tested 12 backbones such as Visual BERT on multimodal dataset Hateful memes, unimodal dataset CIFAR10, CIFAR100, and TinyImagenet. Our DRDF outperforms all the baselines. We also verified the components of DRDF in detail by ablations, compared and discussed the reasons and ideas of DRDF design.
Abstract（参考訳）: マルチモーダルタスクでは,テキストと画像のモーダル情報の重要性が入力ケースによって異なることが判明し,このモチベーションのために,デュアルルータ,mwf層,エキスパート,エキスパート融合ユニットからなる高性能かつ高汎用なデュアルルータ動的フレームワーク(drdf)を提案する。 Dual-Routerのテキストルータと画像ルータは、テキストモーダル情報と画像モーダル情報を受け入れ、MWF-Layerを用いてモーダル情報の重要性を決定する。決定の結果に基づき、MWF-Layerは専門家の融合のために融合重量を生成する。エキスパートは現在のタスクにマッチするモデルバックボーンです。 DRDFは高い性能と汎用性を持ち、マルチモーダルデータセットHateful Memes上のVisual BERT、非モーダルデータセットCIFAR10、CIFAR100、TinyImagenetなどの12のバックボーンをテストした。私たちのDRDFはすべてのベースラインを上回ります。また,DRDF の設計の理由と考え方を整理して,DRDF の構成要素を詳細に検証した。

関連論文リスト

ModalFormer: Multimodal Transformer for Low-Light Image Enhancement [42.56657385578874]
低照度画像強調(LLIE)は、低照度条件下で撮影される画像のノイズ、詳細さの喪失、コントラストの低さのため、基本的な課題である。近年の手法はRGB画像のピクセルレベルの変換にのみ依存しており、複数の視覚的モダリティから利用可能なリッチなコンテキスト情報を無視することが多い。 LLIEのための最初の大規模マルチモーダルフレームワークであるModalFormerについて述べる。
論文参考訳（メタデータ） (2025-07-27T19:07:22Z)
Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文参考訳（メタデータ） (2025-03-14T08:31:21Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-19T02:27:30Z)
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文参考訳（メタデータ） (2024-10-15T00:52:16Z)
DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions [0.815557531820863]
本稿では,対象オブジェクトとレセプタクルの両方のイメージを検索するDual-Mode Multimodal Ranking Model (DM2RM)を提案する。 DM2RMを評価するために,数百のビルスケール環境から収集した実世界の画像を含む新しいデータセットを構築した。 DM2RMの標準化された実世界のDSRプラットフォームへの応用を実演する。
論文参考訳（メタデータ） (2024-08-15T03:34:02Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description [44.033701878979805]
本稿では,リモートセンシング画像記述のための属性誘導型textbfMulti-Granularity Instruction Multimodal Model (MGIMM)を提案する。 MGIMMはマルチモーダルモデルで視覚領域と対応するテキスト属性の一貫性を学習する。我々は,38,320個の領域属性対と23,463個の画像詳細記述対からなるデータセットを構築した。
論文参考訳（メタデータ） (2024-06-07T07:53:14Z)
A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T03:15:50Z)
OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文参考訳（メタデータ） (2023-12-06T18:59:19Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。