論文の概要: Clustering-based Image-Text Graph Matching for Domain Generalization
- arxiv url: http://arxiv.org/abs/2310.02692v3
- Date: Tue, 24 Dec 2024 06:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:26.203106
- Title: Clustering-based Image-Text Graph Matching for Domain Generalization
- Title(参考訳): クラスタリングに基づく領域一般化のための画像テキストグラフマッチング
- Authors: Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun-Sol Kim, Jinkyu Kim,
- Abstract要約: ドメイン不変の視覚表現は、未確認のタスクドメインにうまく一般化できるモデルをトレーニングするために重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれていることが示されている。
我々は、画像領域と対応するテキスト記述間の局所的なアライメントを利用して、ドメイン不変の機能を得ることを提唱する。
- 参考スコア(独自算出の注目度): 13.277406473107721
- License:
- Abstract: Learning domain-invariant visual representations is important to train a model that can generalize well to unseen target task domains. Recent works demonstrate that text descriptions contain high-level class-discriminative information and such auxiliary semantic cues can be used as effective pivot embedding for domain generalization problems. However, they use pivot embedding in a global manner (i.e., aligning an image embedding with sentence-level text embedding), which does not fully utilize the semantic cues of given text description. In this work, we advocate for the use of local alignment between image regions and corresponding textual descriptions to get domain-invariant features. To this end, we first represent image and text inputs as graphs. We then cluster nodes within these graphs and match the graph-based image node features to the nodes of textual graphs. This matching process is conducted both globally and locally, tightly aligning visual and textual semantic sub-structures. We experiment with large-scale public datasets, such as CUB-DG and DomainBed, and our model achieves matched or better state-of-the-art performance on these datasets. The code is available at: https://github.com/noparkee/Graph-Clustering-based-DG
- Abstract(参考訳): ドメイン不変の視覚表現を学習することは、未確認のタスクドメインにうまく一般化できるモデルを訓練する上で重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれており、そのような補助的なセマンティック・キューは、ドメインの一般化問題に対する効果的なピボット埋め込みとして利用できることが示されている。
しかし、それらはグローバルな方法でのピボット埋め込み(すなわち、画像埋め込みと文レベルのテキスト埋め込み)を使い、与えられたテキスト記述のセマンティックキューを完全には利用しない。
本研究では,画像領域と対応するテキスト記述間の局所的なアライメントを利用して,ドメイン不変の機能を実現することを提案する。
この目的のために、まず画像とテキストの入力をグラフとして表現する。
次に、これらのグラフ内のノードをクラスタ化し、グラフベースの画像ノードの特徴をテキストグラフのノードにマッチさせる。
このマッチングプロセスは、グローバルとローカルの両方で行われ、ビジュアルとテキストのセマンティックなサブ構造が密に整合している。
我々は,CUB-DGやDomainBedなどの大規模公開データセットを用いて実験を行い,これらのデータセット上での適合あるいは最先端のパフォーマンスを実現する。
コードは以下の通り。 https://github.com/noparkee/Graph-Clustering-based-DG
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models [33.3678293782131]
本研究は,テキスト分散グラフ(TAG)の自己教師付きグラフ学習に関する研究である。
言語指導によるビュージェネレーションの改善を目指しています。
これは、リッチなセマンティック情報を持つグラフ構造を補完する、実際のアプリケーションにおけるテキスト属性の出現によって引き起こされる。
論文 参考訳(メタデータ) (2024-06-17T17:49:19Z) - Text-Guided Image Clustering [15.217924518131268]
本稿では,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成するテキストガイド画像クラスタリングを提案する。
その結果,8種類の画像クラスタリングデータセットに対して,得られたテキスト表現が画像特徴より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-05T13:34:21Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer [140.72439827136085]
グラフィノノミー(Graphonomy)というグラフ推論・伝達学習フレームワークを提案する。
人間の知識とラベル分類を、局所畳み込みを超えた中間グラフ表現学習に組み込んでいる。
意味認識グラフの推論と転送を通じて、複数のドメインにおけるグローバルおよび構造化されたセマンティックコヒーレンシーを学習する。
論文 参考訳(メタデータ) (2021-01-26T08:19:03Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。