Fugu-MT 論文翻訳(概要): MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version

論文の概要: MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version

arxiv url: http://arxiv.org/abs/2411.18428v2
Date: Thu, 28 Nov 2024 02:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 16:05:35.280412
Title: MM-Path: Multi-modal, Multi-granularity Path Representation Learning -- Extended Version
Title（参考訳）: MMパス:マルチモーダル・マルチグラニュラリティパス表現学習 - 拡張バージョン
Authors: Ronghui Xu, Hanyin Cheng, Chenjuan Guo, Hongfan Gao, Jilin Hu, Sean Bin Yang, Bin Yang,
Abstract要約: マルチモーダル・マルチグラニュラリティパス表現学習フレームワーク(MM-Path)を提案する。 MM-Pathは道路経路と画像経路の両方からモダリティを統合することで、一般的な経路表現を学習することができる。
参考スコア（独自算出の注目度）: 12.938987616850389
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Developing effective path representations has become increasingly essential across various fields within intelligent transportation. Although pre-trained path representation learning models have shown improved performance, they predominantly focus on the topological structures from single modality data, i.e., road networks, overlooking the geometric and contextual features associated with path-related images, e.g., remote sensing images. Similar to human understanding, integrating information from multiple modalities can provide a more comprehensive view, enhancing both representation accuracy and generalization. However, variations in information granularity impede the semantic alignment of road network-based paths (road paths) and image-based paths (image paths), while the heterogeneity of multi-modal data poses substantial challenges for effective fusion and utilization. In this paper, we propose a novel Multi-modal, Multi-granularity Path Representation Learning Framework (MM-Path), which can learn a generic path representation by integrating modalities from both road paths and image paths. To enhance the alignment of multi-modal data, we develop a multi-granularity alignment strategy that systematically associates nodes, road sub-paths, and road paths with their corresponding image patches, ensuring the synchronization of both detailed local information and broader global contexts. To address the heterogeneity of multi-modal data effectively, we introduce a graph-based cross-modal residual fusion component designed to comprehensively fuse information across different modalities and granularities. Finally, we conduct extensive experiments on two large-scale real-world datasets under two downstream tasks, validating the effectiveness of the proposed MM-Path. The code is available at: https://github.com/decisionintelligence/MM-Path.
Abstract（参考訳）: 効率的な経路表現の開発は、インテリジェントトランスポートにおける様々な分野においてますます重要になっている。事前学習された経路表現学習モデルでは、性能が向上しているが、主に単一モードデータ、すなわち道路ネットワークからの位相構造に注目し、経路関連画像(例えば、リモートセンシング画像)に関連する幾何学的特徴と文脈的特徴を見渡す。人間の理解と同様に、複数のモダリティからの情報を統合することで、より包括的な視点を提供し、表現精度と一般化の両面を強化することができる。しかし、情報粒度の変化は、道路網に基づく経路(道路経路)と画像に基づく経路(道路経路)のセマンティックアライメントを阻害する一方、マルチモーダルデータの異質性は、効果的な融合と利用に重大な課題をもたらす。本稿では,道路経路と画像経路の両方からモダリティを統合することで,汎用的な経路表現を学習できる,新しいマルチモーダル・マルチグラニュラリティパス表現学習フレームワーク(MM-Path)を提案する。マルチモーダルデータのアライメントを強化するため,ノード,道路サブパス,道路パスを対応する画像パッチと体系的に関連づけるマルチグラニュラリティアライメント戦略を開発した。マルチモーダルデータの均一性を効果的に解決するために,様々なモーダルや粒度の情報を包括的に融合するグラフベースのクロスモーダル残差融合成分を導入する。最後に,2つの下流タスクの下で2つの大規模実世界のデータセットについて広範な実験を行い,提案手法の有効性を検証した。コードはhttps://github.com/decisionintelligence/MM-Path.comで公開されている。

関連論文リスト

Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。 VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文参考訳（メタデータ） (2025-10-21T14:59:29Z)
MSRFormer: Road Network Representation Learning using Multi-scale Feature Fusion of Heterogeneous Spatial Interactions [18.883574280859147]
本稿では,新しい道路ネットワーク表現学習フレームワークであるMSRFormerを提案する。空間流の畳み込みを用いて、大きな軌跡データセットから小さな特徴を抽出する。道路ネットワークの空間構造を捉えるために,スケール依存の空間相互作用領域を同定する。
論文参考訳（メタデータ） (2025-09-06T11:19:13Z)
MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文参考訳（メタデータ） (2025-07-29T12:17:46Z)
URoadNet: Dual Sparse Attentive U-Net for Multiscale Road Network Extraction [35.39993205110938]
我々は、エレガントな道路認識セグメンテーションのための計算効率が高く強力なフレームワークを導入する。提案手法はURoadNetと呼ばれ,局所的な局所的道路接続と全体的グローバルなトポロジ的意味論を効果的に符号化する。本手法は,道路網の抽出分野における重要な進歩を示すものである。
論文参考訳（メタデータ） (2024-12-23T13:45:29Z)
SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文参考訳（メタデータ） (2024-11-16T03:09:49Z)
Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。 GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-10-17T03:56:12Z)
Think Twice Before Recognizing: Large Multimodal Models for General Fine-grained Traffic Sign Recognition [49.20086587208214]
我々は、微粒な交通標識認識(TSR)を改善するために認識する前に、思考と呼ばれる新しい戦略を提案する。我々の戦略は、大型マルチモーダルモデル(LMM)の多重思考能力を刺激することで、有効な微粒化TSRを実現する。
論文参考訳（メタデータ） (2024-09-03T02:08:47Z)
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。 MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。 2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文参考訳（メタデータ） (2024-07-26T16:30:18Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。 CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文参考訳（メタデータ） (2021-11-30T04:30:10Z)
Transformer Meets Convolution: A Bilateral Awareness Net-work for Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。 BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。 3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文参考訳（メタデータ） (2021-06-23T13:57:36Z)
Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。 2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文参考訳（メタデータ） (2021-05-31T03:16:38Z)
Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文参考訳（メタデータ） (2020-08-25T06:00:06Z)
A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文参考訳（メタデータ） (2020-07-19T22:50:20Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。