論文の概要: Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers
- arxiv url: http://arxiv.org/abs/2403.06601v2
- Date: Thu, 05 Dec 2024 15:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:19.925142
- Title: Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers
- Title(参考訳): 画像-グラフ変換器のクロスドメインとクロス次元学習
- Authors: Alexander H. Berger, Laurin Lux, Suprosanna Shit, Ivan Ezhov, Georgios Kaissis, Martin J. Menten, Daniel Rueckert, Johannes C. Paetzold,
- Abstract要約: 直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
- 参考スコア(独自算出の注目度): 48.74331852418905
- License:
- Abstract: Direct image-to-graph transformation is a challenging task that involves solving object detection and relationship prediction in a single model. Due to this task's complexity, large training datasets are rare in many domains, making the training of deep-learning methods challenging. This data sparsity necessitates transfer learning strategies akin to the state-of-the-art in general computer vision. In this work, we introduce a set of methods enabling cross-domain and cross-dimension learning for image-to-graph transformers. We propose (1) a regularized edge sampling loss to effectively learn object relations in multiple domains with different numbers of edges, (2) a domain adaptation framework for image-to-graph transformers aligning image- and graph-level features from different domains, and (3) a projection function that allows using 2D data for training 3D transformers. We demonstrate our method's utility in cross-domain and cross-dimension experiments, where we utilize labeled data from 2D road networks for simultaneous learning in vastly different target domains. Our method consistently outperforms standard transfer learning and self-supervised pretraining on challenging benchmarks, such as retinal or whole-brain vessel graph extraction.
- Abstract(参考訳): 直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
このデータは、一般的なコンピュータビジョンにおける最先端技術に似た転送学習戦略を必要とする。
本研究では,画像間変換器のクロスドメインとクロス次元学習を実現するための一連の手法を提案する。
本稿では,(1)エッジ数が異なる複数の領域におけるオブジェクト関係を効果的に学習する正規化エッジサンプリング損失,(2)異なる領域からの画像レベルとグラフレベルの特徴を整列する画像-グラフ変換器のドメイン適応フレームワーク,(3)3Dトランスフォーマーのトレーニングに2Dデータを使用するプロジェクション関数を提案する。
本研究では,2次元道路網のラベル付きデータを用いて,異なる対象領域の同時学習を行うクロスドメイン・クロス次元実験において,本手法の有用性を実証する。
本手法は、網膜や脳血管グラフの抽出など、難易度の高いベンチマークにおいて、標準転送学習と自己教師付き事前学習を一貫して上回っている。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Progressive Transformation Learning for Leveraging Virtual Images in
Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。
1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-11-03T13:04:15Z) - Unsupervised Domain Adaptation with Histogram-gated Image Translation
for Delayered IC Image Analysis [2.720699926154399]
Histogram-gated Image Translation (HGIT)は、特定のソースデータセットからターゲットデータセットのドメインに変換する、教師なしのドメイン適応フレームワークである。
提案手法は,報告したドメイン適応手法と比較して最高の性能を達成し,完全教師付きベンチマークに適当に近い。
論文 参考訳(メタデータ) (2022-09-27T15:53:22Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文 参考訳(メタデータ) (2021-01-03T04:50:03Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。