論文の概要: IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling
- arxiv url: http://arxiv.org/abs/2301.02445v3
- Date: Tue, 10 Jan 2023 12:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 14:03:29.894520
- Title: IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling
- Title(参考訳): IMKGA-SM:シーケンスモデリングによる解釈可能なマルチモーダル知識グラフ回答予測
- Authors: Yilin Wen, Biao Luo and Yuqian Zhao
- Abstract要約: マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal knowledge graph link prediction aims to improve the accuracy and
efficiency of link prediction tasks for multimodal data. However, for complex
multimodal information and sparse training data, it is usually difficult to
achieve interpretability and high accuracy simultaneously for most methods. To
address this difficulty, a new model is developed in this paper, namely
Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence
Modeling (IMKGA-SM). First, a multi-modal fine-grained fusion method is
proposed, and Vgg16 and Optical Character Recognition (OCR) techniques are
adopted to effectively extract text information from images and images. Then,
the knowledge graph link prediction task is modelled as an offline
reinforcement learning Markov decision model, which is then abstracted into a
unified sequence framework. An interactive perception-based reward expectation
mechanism and a special causal masking mechanism are designed, which
``converts" the query into an inference path. Then, an autoregressive dynamic
gradient adjustment mechanism is proposed to alleviate the insufficient problem
of multimodal optimization. Finally, two datasets are adopted for experiments,
and the popular SOTA baselines are used for comparison. The results show that
the developed IMKGA-SM achieves much better performance than SOTA baselines on
multimodal link prediction datasets of different sizes.
- Abstract(参考訳): マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
しかし、複雑なマルチモーダル情報やスパーストレーニングデータの場合、ほとんどの手法では解釈可能性と高い精度を同時に達成することは困難である。
そこで本稿では,この課題に対処するために,多変量知識グラフ応答予測(imkga-sm)という新しいモデルを開発した。
まず,マルチモーダル微細粒度融合法を提案し,vgg16とocr(optical character recognition)技術を用いて画像や画像からテキスト情報を効果的に抽出する。
次に、知識グラフリンク予測タスクをオフライン強化学習マルコフ決定モデルとしてモデル化し、統一シーケンスフレームワークに抽象化する。
対話的な知覚に基づく報酬期待機構と特別な因果的マスキング機構が設計され、クエリを推論パスに`変換する。
そこで,マルチモーダル最適化の問題点を軽減するために,自己回帰動的勾配調整機構を提案する。
最後に、2つのデータセットが実験に採用され、一般的なSOTAベースラインが比較に使用される。
その結果,開発したIMKGA-SMは,異なるサイズのマルチモーダルリンク予測データセット上でのSOTAベースラインよりもはるかに優れた性能が得られることがわかった。
関連論文リスト
- Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction [8.592259720470697]
脳障害予測のためのマルチモーダルグラフ深層学習フレームワークMM-GTUNetsを提案する。
本稿では,報酬システムを用いて集団グラフを適応的に構築するMRRL(Modality Reward Representation Learning)を提案する。
また,ACMGL(Adaptive Cross-Modal Graph Learning)を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:14:43Z) - SIG: Efficient Self-Interpretable Graph Neural Network for Continuous-time Dynamic Graphs [34.269958289295516]
我々は,これらの予測の因果的説明を同時に提供しながら,動的グラフ内の将来のリンクを予測することを目的としている。
これらの課題に対処するため、我々は新たな因果推論モデル、すなわち独立因果推定モデル(ICCM)を提案する。
提案手法は, リンク予測精度, 説明精度, 特徴量に対するロバスト性など, 既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-29T13:09:33Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation
for Pixel-wise Regression [1.4528189330418977]
機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要課題である。
画素ワイド回帰タスクに対するMIMO(Multiple-Input Multiple-Output)フレームワークの適応について述べる。
論文 参考訳(メタデータ) (2023-08-14T22:08:28Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。