論文の概要: Less is More: Multimodal Region Representation via Pairwise Inter-view Learning
- arxiv url: http://arxiv.org/abs/2505.18178v1
- Date: Thu, 15 May 2025 03:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.437684
- Title: Less is More: Multimodal Region Representation via Pairwise Inter-view Learning
- Title(参考訳): より少ない: ペアワイズ・インタービューラーニングによるマルチモーダル領域表現
- Authors: Min Namgung, Yijun Lin, JangHyeon Lee, Yao-Yi Chiang,
- Abstract要約: 地域表現学習のための情報分解手法であるクロスモーダル・ナレッジ・インジェクト・インジェクトド・エンベディング(CrossModal Knowledge Injected Embedding)を導入する。
本研究では,ニューヨークとインドのデリーにおける3つの回帰課題と土地利用分類課題について,クーキーの評価を行った。
- 参考スコア(独自算出の注目度): 6.24334022634441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing availability of geospatial datasets, researchers have explored region representation learning (RRL) to analyze complex region characteristics. Recent RRL methods use contrastive learning (CL) to capture shared information between two modalities but often overlook task-relevant unique information specific to each modality. Such modality-specific details can explain region characteristics that shared information alone cannot capture. Bringing information factorization to RRL can address this by factorizing multimodal data into shared and unique information. However, existing factorization approaches focus on two modalities, whereas RRL can benefit from various geospatial data. Extending factorization beyond two modalities is non-trivial because modeling high-order relationships introduces a combinatorial number of learning objectives, increasing model complexity. We introduce Cross modal Knowledge Injected Embedding, an information factorization approach for RRL that captures both shared and unique representations. CooKIE uses a pairwise inter-view learning approach that captures high-order information without modeling high-order dependency, avoiding exhaustive combinations. We evaluate CooKIE on three regression tasks and a land use classification task in New York City and Delhi, India. Results show that CooKIE outperforms existing RRL methods and a factorized RRL model, capturing multimodal information with fewer training parameters and floating-point operations per second (FLOPs). We release the code: https://github.com/MinNamgung/CooKIE.
- Abstract(参考訳): 地理空間データセットの可用性の向上に伴い、研究者は複雑な領域特性を分析するために地域表現学習(RRL)を探索した。
最近のRRL法では、2つのモード間で共有される情報を取得するためにコントラッシブラーニング(CL)を採用しているが、各モードに特有のタスク関連ユニークな情報を見落としていることが多い。
このようなモダリティ固有の詳細は、共有情報だけでは捉えられない地域特性を説明することができる。
RRLに情報分解をもたらすことは、マルチモーダルデータを共有情報とユニークな情報に分解することで、この問題に対処できる。
しかし、既存の分解手法は2つのモードにフォーカスするが、RRLは様々な地理空間データから恩恵を受けることができる。
2つのモダリティを超えて因子化を拡張することは、高次関係をモデル化することは、学習目標の組合せ数を導入し、モデルの複雑さを増大させるため、簡単ではない。
共有表現と一意表現の両方をキャプチャするRRLのための情報分解手法であるクロスモーダル知識注入埋め込みを導入する。
CooKIEは、高階依存をモデル化せずに高階情報をキャプチャし、徹底的な組み合わせを避ける、ペアワイズなビュー間学習アプローチを使用している。
本研究では,ニューヨークとインドのデリーにおける3つの回帰課題と土地利用分類課題について,クーキーの評価を行った。
その結果、CooKIEは既存のRRL法と分解RRLモデルより優れており、訓練パラメータが少ないマルチモーダル情報をキャプチャし、1秒あたりの浮動小数点演算(FLOP)を行う。
https://github.com/MinNamgung/CooKIE.com/
関連論文リスト
- Cross-Sequence Semi-Supervised Learning for Multi-Parametric MRI-Based Visual Pathway Delineation [18.101169568060786]
本稿では,VP記述のための新しい半教師付き多パラメータ特徴分解フレームワークを提案する。
具体的には、相関制約付き特徴分解(CFD)は複雑な相互系列関係を扱うように設計されている。
2つのパブリックデータセットと1つの社内マルチシェル拡散MRI(MDM)データセットを用いて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2025-05-26T09:18:58Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Fully Distributed Actor-Critic Architecture for Multitask Deep
Reinforcement Learning [6.628062414583634]
マルチタスク強化学習(MRL)に応用したDiff-DACという,完全に分散したアクタ批判型アーキテクチャを提案する。
エージェントは、その価値とポリシーのパラメータを隣人に伝達し、中央局を必要とせずにエージェントのネットワークに情報を拡散する。
我々は,Diff-DACの一般仮定の下での共通ポリシーへの収束性をほぼ確実に証明する。
論文 参考訳(メタデータ) (2021-10-23T21:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。