論文の概要: MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version
- arxiv url: http://arxiv.org/abs/2411.18428v1
- Date: Wed, 27 Nov 2024 15:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:00.435586
- Title: MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version
- Title(参考訳): MMパス:マルチモーダル・マルチグラニュラリティパス表現学習 - 拡張バージョン
- Authors: Ronghui Xu, Hanyin Cheng, Chenjuan Guo, Hongfan Gao, Jilin Hu, Sean Bin Yang, Bin Yang,
- Abstract要約: マルチモーダル・マルチグラニュラリティパス表現学習フレームワーク(MM-Path)を提案する。
MM-Pathは道路経路と画像経路の両方からモダリティを統合することで、一般的な経路表現を学習することができる。
提案するMM-Pathの有効性を検証するために,2つの大規模実世界のタスクについて実験を行った。
- 参考スコア(独自算出の注目度): 12.938987616850389
- License:
- Abstract: Developing effective path representations has become increasingly essential across various fields within intelligent transportation. Although pre-trained path representation learning models have shown improved performance, they predominantly focus on the topological structures from single modality data, i.e., road networks, overlooking the geometric and contextual features associated with path-related images, e.g., remote sensing images. Similar to human understanding, integrating information from multiple modalities can provide a more comprehensive view, enhancing both representation accuracy and generalization. However, variations in information granularity impede the semantic alignment of road network-based paths (road paths) and image-based paths (image paths), while the heterogeneity of multi-modal data poses substantial challenges for effective fusion and utilization. In this paper, we propose a novel Multi-modal, Multi-granularity Path Representation Learning Framework (MM-Path), which can learn a generic path representation by integrating modalities from both road paths and image paths. To enhance the alignment of multi-modal data, we develop a multi-granularity alignment strategy that systematically associates nodes, road sub-paths, and road paths with their corresponding image patches, ensuring the synchronization of both detailed local information and broader global contexts. To address the heterogeneity of multi-modal data effectively, we introduce a graph-based cross-modal residual fusion component designed to comprehensively fuse information across different modalities and granularities. Finally, we conduct extensive experiments on two large-scale real-world datasets under two downstream tasks, validating the effectiveness of the proposed MM-Path. This is an extended version of the paper accepted by KDD 2025.
- Abstract(参考訳): 効率的な経路表現の開発は、インテリジェントトランスポートにおける様々な分野においてますます重要になっている。
事前学習された経路表現学習モデルでは、性能が向上しているが、主に単一モードデータ、すなわち道路ネットワークからの位相構造に注目し、経路関連画像(例えば、リモートセンシング画像)に関連する幾何学的特徴と文脈的特徴を見渡す。
人間の理解と同様に、複数のモダリティからの情報を統合することで、より包括的な視点を提供し、表現精度と一般化の両面を強化することができる。
しかし、情報粒度の変化は、道路網に基づく経路(道路経路)と画像に基づく経路(道路経路)のセマンティックアライメントを阻害する一方、マルチモーダルデータの異質性は、効果的な融合と利用に重大な課題をもたらす。
本稿では,道路経路と画像経路の両方からモダリティを統合することで,汎用的な経路表現を学習できる,新しいマルチモーダル・マルチグラニュラリティパス表現学習フレームワーク(MM-Path)を提案する。
マルチモーダルデータのアライメントを強化するため,ノード,道路サブパス,道路パスを対応する画像パッチと体系的に関連づけるマルチグラニュラリティアライメント戦略を開発した。
マルチモーダルデータの均一性を効果的に解決するために,様々なモーダルや粒度の情報を包括的に融合するグラフベースのクロスモーダル残差融合成分を導入する。
最後に,2つの下流タスクの下で2つの大規模実世界のデータセットについて広範な実験を行い,提案手法の有効性を検証した。
これは KDD 2025 が受理した論文の拡張版である。
関連論文リスト
- Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。
GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-17T03:56:12Z) - Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition [49.20086587208214]
我々は、微粒な交通標識認識(TSR)を改善するために認識する前に、思考と呼ばれる新しい戦略を提案する。
我々の戦略は、大型マルチモーダルモデル(LMM)の多重思考能力を刺激することで、有効な微粒化TSRを実現する。
論文 参考訳(メタデータ) (2024-09-03T02:08:47Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Transformer Meets Convolution: A Bilateral Awareness Net-work for
Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。
BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。
3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文 参考訳(メタデータ) (2021-06-23T13:57:36Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Unsupervised Multi-Modal Image Registration via Geometry Preserving
Image-to-Image Translation [43.060971647266236]
我々は2つの入力モダリティに基づいて画像と画像の変換ネットワークを訓練する。
この学習された翻訳により、シンプルで信頼性の高いモノモダリティメトリクスを使用して、登録ネットワークをトレーニングすることができる。
最先端のマルチモーダル手法と比較して, 提案手法は教師なしであり, 整列したモーダルのペアは必要とせず, 任意のモーダルのペアに適応できる。
論文 参考訳(メタデータ) (2020-03-18T07:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。