論文の概要: IIU: Independent Inference Units for Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2408.07989v1
- Date: Thu, 15 Aug 2024 07:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:36:26.665061
- Title: IIU: Independent Inference Units for Knowledge-based Visual Question Answering
- Title(参考訳): IIU:知識に基づく視覚質問応答のための独立推論ユニット
- Authors: Yili Li, Jing Yu, Keke Gai, Gang Xiong,
- Abstract要約: 細粒度マルチモーダル推論のための独立推論ユニット(IIU)を提案する。
IIUは機能的に独立したユニットによってモジュール内情報を分解する。
我々のモデルは、新しい最先端を実現し、性能を3%向上し、基礎的な事前訓練されたマルチモーダルモデルを超えた。
- 参考スコア(独自算出の注目度): 7.3787088958663665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-based visual question answering requires external knowledge beyond visible content to answer the question correctly. One limitation of existing methods is that they focus more on modeling the inter-modal and intra-modal correlations, which entangles complex multimodal clues by implicit embeddings and lacks interpretability and generalization ability. The key challenge to solve the above problem is to separate the information and process it separately at the functional level. By reusing each processing unit, the generalization ability of the model to deal with different data can be increased. In this paper, we propose Independent Inference Units (IIU) for fine-grained multi-modal reasoning to decompose intra-modal information by the functionally independent units. Specifically, IIU processes each semantic-specific intra-modal clue by an independent inference unit, which also collects complementary information by communication from different units. To further reduce the impact of redundant information, we propose a memory update module to maintain semantic-relevant memory along with the reasoning process gradually. In comparison with existing non-pretrained multi-modal reasoning models on standard datasets, our model achieves a new state-of-the-art, enhancing performance by 3%, and surpassing basic pretrained multi-modal models. The experimental results show that our IIU model is effective in disentangling intra-modal clues as well as reasoning units to provide explainable reasoning evidence. Our code is available at https://github.com/Lilidamowang/IIU.
- Abstract(参考訳): 知識に基づく視覚的質問応答は、その質問に正しく答えるために、目に見えるコンテンツ以外の外部知識を必要とする。
既存の手法の1つの制限は、暗黙の埋め込みによって複雑なマルチモーダル手がかりを絡ませ、解釈可能性や一般化能力に欠ける、モーダル間およびモーダル内相関のモデリングに焦点が当てられていることである。
上記の問題を解決する上で重要な課題は、情報を分離し、機能レベルで個別に処理することだ。
各処理ユニットを再利用することにより、異なるデータを扱うモデルの一般化能力を高めることができる。
本稿では,機能的に独立な単位によってモーダル内情報を分解するための細粒度マルチモーダル推論のための独立推論ユニット(IIU)を提案する。
特に、IIUは、個別の推論ユニットによって各意味特異的なモーダルヒントを処理し、異なるユニットからの通信によって補完情報を収集する。
冗長な情報の影響をさらに軽減するため,意味的関連メモリを段階的に保持するメモリ更新モジュールを提案する。
従来の非事前学習型マルチモーダル推論モデルと比較して,我々のモデルは新たな最先端技術を実現し,性能を3%向上し,基礎的事前学習型マルチモーダルモデルを上回っている。
実験結果から,本モデルがモーダル内手がかりと推論ユニットを混同して説明可能な推論証拠を提供するのに有効であることが示唆された。
私たちのコードはhttps://github.com/Lilidamowang/IIU.comで公開されています。
関連論文リスト
- HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Cross-Modal Reasoning with Event Correlation for Video Question
Answering [32.332251488360185]
本稿では, 副次的・蒸留的事象関連情報として高密度キャプションモダリティを導入し, その正解を推測する。
我々は、モーダル間関係を明示的にモデル化し、異なるモーダル間で関連情報を集約するために、モーダル間推論モジュールを用いる。
質問指向および事象関連エビデンスを多段階推論により収集する,質問誘導型自己適応型マルチモーダル融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-20T02:30:39Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Towards a Better Microcredit Decision [0.0]
まず、融資プロセス全体を通じて順次依存する3つの段階を定義し、例えば、貸付(AR)、引受申告書(WS)、返済契約(GB)を定めます。
提案手法は単純かつ効果的であり,中国のトップローンプラットフォームから得られた実データを用いた実験結果から,人口バイアスを緩和し,モデル一般化能力を向上させる能力を示した。
論文 参考訳(メタデータ) (2022-08-23T12:24:19Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。