論文の概要: Graph Optimal Transport for Cross-Domain Alignment
- arxiv url: http://arxiv.org/abs/2006.14744v3
- Date: Fri, 24 Jul 2020 20:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:47:29.445483
- Title: Graph Optimal Transport for Cross-Domain Alignment
- Title(参考訳): クロスドメインアライメントのためのグラフ最適輸送
- Authors: Liqun Chen, Zhe Gan, Yu Cheng, Linjie Li, Lawrence Carin, Jingjing Liu
- Abstract要約: クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
- 参考スコア(独自算出の注目度): 121.80313648519203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain alignment between two sets of entities (e.g., objects in an
image, words in a sentence) is fundamental to both computer vision and natural
language processing. Existing methods mainly focus on designing advanced
attention mechanisms to simulate soft alignment, with no training signals to
explicitly encourage alignment. The learned attention matrices are also dense
and lacks interpretability. We propose Graph Optimal Transport (GOT), a
principled framework that germinates from recent advances in Optimal Transport
(OT). In GOT, cross-domain alignment is formulated as a graph matching problem,
by representing entities into a dynamically-constructed graph. Two types of OT
distances are considered: (i) Wasserstein distance (WD) for node (entity)
matching; and (ii) Gromov-Wasserstein distance (GWD) for edge (structure)
matching. Both WD and GWD can be incorporated into existing neural network
models, effectively acting as a drop-in regularizer. The inferred transport
plan also yields sparse and self-normalized alignment, enhancing the
interpretability of the learned model. Experiments show consistent
outperformance of GOT over baselines across a wide range of tasks, including
image-text retrieval, visual question answering, image captioning, machine
translation, and text summarization.
- Abstract(参考訳): 2つのエンティティ(例えば、画像内のオブジェクト、文中の単語)間のドメイン間のアライメントは、コンピュータビジョンと自然言語処理の両方に基本である。
既存の手法は主にソフトアライメントをシミュレートするための高度なアライメント機構の設計に重点を置いている。
学習された注意行列も密度が高く、解釈性に欠ける。
我々は,最近の最適輸送(OT)の進歩から発芽する基本的枠組みであるグラフ最適輸送(GOT)を提案する。
gotでは、エンティティを動的に構築されたグラフに表現することで、クロスドメインアライメントをグラフマッチング問題として定式化する。
ot距離には以下の2種類がある。
(i)ノード(エンティティ)マッチングのためのwasserstein距離(wd)、及び
(ii)エッジマッチングのためのgromov-wasserstein距離(gwd)。
WDとGWDはどちらも既存のニューラルネットワークモデルに組み込むことができ、事実上ドロップイン正規化器として機能する。
推論された輸送計画はまたスパースと自己正規化アライメントをもたらし、学習モデルの解釈可能性を高める。
実験は、画像テキスト検索、視覚的質問応答、画像キャプション、機械翻訳、テキスト要約など、幅広いタスクにわたるベースライン上でのGOTの一貫性のあるパフォーマンスを示す。
関連論文リスト
- Combining Optimal Transport and Embedding-Based Approaches for More Expressiveness in Unsupervised Graph Alignment [19.145556156889064]
教師なしグラフアライメントは、グラフ構造とノード特徴のみを利用して、属性グラフのペア間の1対1ノード対応を見つける。
モデル表現性の理論的解析によって動機付けられたそれらの利点を組み合わせるための原理的アプローチを提案する。
我々は,問題を最大重み付けに還元することで,一対一のマッチング制約を最初に保証する。
論文 参考訳(メタデータ) (2024-06-19T04:57:35Z) - Robust Graph Matching Using An Unbalanced Hierarchical Optimal Transport Framework [30.05543844763625]
本稿では,不均衡な階層的最適輸送フレームワークに基づく,新しい頑健なグラフマッチング手法を提案する。
グラフマッチングにおいて、クロスモーダルアライメントを利用するための最初の試みを行う。
様々なグラフマッチングタスクの実験は、最先端の手法と比較して、我々の手法の優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-18T16:16:53Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Robust Attributed Graph Alignment via Joint Structure Learning and
Optimal Transport [26.58964162799207]
本稿では,構造化学習と最適輸送アライメントを併用した教師なしグラフアライメントフレームワークSLOTAlignを提案する。
マルチビュー構造学習を取り入れて、グラフ表現能力を高め、グラフ間で継承された構造と特徴の不整合の影響を低減する。
提案したSLOTAlignは、7つの教師なしグラフアライメント法と5つの特殊なKGアライメント法よりも優れた性能と強いロバスト性を示す。
論文 参考訳(メタデータ) (2023-01-30T08:41:36Z) - Asymmetric Cross-Scale Alignment for Text-Based Person Search [15.618984100653348]
テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。
マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-26T08:34:35Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - HDGT: Heterogeneous Driving Graph Transformer for Multi-Agent Trajectory
Prediction via Scene Encoding [76.9165845362574]
運転シーンをノードやエッジの異なる異種グラフとしてモデル化するバックボーンを提案する。
空間的関係符号化では、ノードの座標とエッジの座標は局所ノード中心座標系に含まれる。
実験結果から,HDGTは軌道予測のタスクに対して最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-04-30T07:08:30Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。