論文の概要: DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph
- arxiv url: http://arxiv.org/abs/2603.24636v1
- Date: Wed, 25 Mar 2026 09:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.904549
- Title: DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph
- Title(参考訳): DyMRL:知識グラフを用いたマルチモーダルイベント予測のための動的マルチスペース表現学習
- Authors: Feng Zhao, Kangzheng Liu, Teng Peng, Yu Yang, Guandong Xu,
- Abstract要約: マルチモーダル時間的知識を効率的に獲得・融合する動的マルチスペース表現学習手法であるDyMRLを提案する。
我々はDyMRLが動的一乗法や静的多乗法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.450478774839324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate representation of multimodal knowledge is crucial for event forecasting in real-world scenarios. However, existing studies have largely focused on static settings, overlooking the dynamic acquisition and fusion of multimodal knowledge. 1) At the knowledge acquisition level, how to learn time-sensitive information of different modalities, especially the dynamic structural modality. Existing dynamic learning methods are often limited to shallow structures across heterogeneous spaces or simple unispaces, making it difficult to capture deep relation-aware geometric features. 2) At the knowledge fusion level, how to learn evolving multimodal fusion features. Existing knowledge fusion methods based on static coattention struggle to capture the varying historical contributions of different modalities to future events. To this end, we propose DyMRL, a Dynamic Multispace Representation Learning approach to efficiently acquire and fuse multimodal temporal knowledge. 1) For the former issue, DyMRL integrates time-specific structural features from Euclidean, hyperbolic, and complex spaces into a relational message-passing framework to learn deep representations, reflecting human intelligences in associative thinking, high-order abstracting, and logical reasoning. Pretrained models endow DyMRL with time-sensitive visual and linguistic intelligences. 2) For the latter concern, DyMRL incorporates advanced dual fusion-evolution attention mechanisms that assign dynamic learning emphases equally to different modalities at different timestamps in a symmetric manner. To evaluate DyMRL's event forecasting performance through leveraging its learned multimodal temporal knowledge in history, we construct four multimodal temporal knowledge graph benchmarks. Extensive experiments demonstrate that DyMRL outperforms state-of-the-art dynamic unimodal and static multimodal baseline methods.
- Abstract(参考訳): マルチモーダル知識の正確な表現は、実世界のシナリオにおけるイベント予測に不可欠である。
しかし、既存の研究は静的な設定に重点を置いており、マルチモーダル知識の動的獲得と融合を見越している。
1)知識獲得レベルでは,異なるモーダルの時間感性情報,特に動的構造モーダルの学習方法について検討した。
既存の動的学習手法は、しばしば不均一空間や単純なユニスペースをまたいだ浅い構造に制限されるため、深い関係を意識した幾何学的特徴を捉えることは困難である。
2)知識融合レベルでは,進化するマルチモーダル融合機能をどのように学習するか。
現状の知識融合手法は, 様々なモダリティの様々な歴史的貢献を, 将来の出来事に捉えようとする静的なコートテンション闘争に基づくものである。
そこで本稿では,マルチモーダル時間的知識を効率的に獲得・融合する動的マルチスペース表現学習手法であるDyMRLを提案する。
1) 従来の問題に対して,DyMRLはユークリッド,双曲,複雑な空間からの時間特異的な構造的特徴を,深い表現を学習するための関係的メッセージパッシングフレームワークに統合し,人間知能を連想的思考,高次抽象,論理的推論に反映させる。
事前訓練されたモデルは、DyMRLに時間に敏感な視覚的および言語的インテリジェンスを付与する。
2) DMRLは, 動的学習相を異なるタイムスタンプの異なるモードに対称的に等しく割り当てる, 高度な二重融合進化注意機構を取り入れている。
DyMRLの事象予測性能を評価するために,その学習した時間的時間的知識を歴史に生かして4つの時間的時間的時間的知識グラフベンチマークを構築した。
大規模な実験により、DyMRLは最先端の動的一乗法および静的マルチモーダルベースライン法より優れていることが示された。
関連論文リスト
- Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking [14.177367335305627]
マルチモーダル物体追跡における時間的伝播と融合を両立させる新しいフレームワークであるMDTrackを提案する。
モダリティを意識した融合では、それぞれの表現を処理するために、赤外線、事象、深度、RGBを含む各モダリティに専用の専門家を割り当てる。
時間的伝搬を分離するために,RGBとXのモードストリームの隠蔽状態を独立に保存・更新する2つの状態空間モデル構造を導入する。
論文 参考訳(メタデータ) (2026-03-10T07:10:05Z) - MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multi-Modality Spatio-Temporal Forecasting via Self-Supervised Learning [11.19088022423885]
そこで本稿では,MoSSL を利用した新しい学習フレームワークを提案する。
2つの実世界のMOSTデータセットの結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。
論文 参考訳(メタデータ) (2024-05-06T08:24:06Z) - Unsupervised Learning of Hybrid Latent Dynamics: A Learn-to-Identify
Framework [9.587766468221535]
現代の応用では、高次元時系列からの潜在力学の教師なし学習がますます求められている。
本稿では、モデル化されているデータに特異的な物理誘導バイアスの使用と、その識別に使用されるデータから予測対象を分離する学習・識別戦略について検討する。
我々はこれら2つの戦略をハイブリッド潜在力学(Meta-HyLaD)の教師なしメタラーニングのための新しいフレームワークに組み合わせる。
論文 参考訳(メタデータ) (2024-03-13T02:33:57Z) - Continual Multimodal Knowledge Graph Construction [62.77243705682985]
現在のマルチモーダル知識グラフ構築(MKGC)モデルは、絶え間なく出現する実体と関係の現実的なダイナミズムに苦慮している。
本研究では,連続的なMKGCドメインの開発を促進するためのベンチマークを紹介する。
マルチメディアデータ処理における既存のMKGCアプローチの欠点を克服するMSPTフレームワークを導入する。
論文 参考訳(メタデータ) (2023-05-15T14:58:28Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。