論文の概要: Clustering-based Image-Text Graph Matching for Domain Generalization
- arxiv url: http://arxiv.org/abs/2310.02692v2
- Date: Mon, 15 Apr 2024 17:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 01:59:49.444426
- Title: Clustering-based Image-Text Graph Matching for Domain Generalization
- Title(参考訳): クラスタリングに基づく領域一般化のための画像テキストグラフマッチング
- Authors: Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun-Sol Kim, Jinkyu Kim,
- Abstract要約: ドメイン不変の視覚表現は、未確認のタスクドメインにうまく一般化できるモデルをトレーニングするために重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれていることが示されている。
画像領域と対応するテキスト記述間の局所的なアライメントの利用を提唱する。
- 参考スコア(独自算出の注目度): 13.277406473107721
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning domain-invariant visual representations is important to train a model that can generalize well to unseen target task domains. Recent works demonstrate that text descriptions contain high-level class-discriminative information and such auxiliary semantic cues can be used as effective pivot embedding for domain generalization problem. However, they use pivot embedding in global manner (i.e., aligning an image embedding with sentence-level text embedding), not fully utilizing the semantic cues of given text description. In this work, we advocate for the use of local alignment between image regions and corresponding textual descriptions. To this end, we first represent image and text inputs with graphs. We subsequently cluster nodes in those graphs and match the graph-based image node features into textual graphs. This matching process is conducted globally and locally, tightly aligning visual and textual semantic sub-structures. We experiment with large-scale public datasets, such as CUB-DG and DomainBed, and our model achieves matched or better state-of-the-art performance on these datasets. Our code will be publicly available upon publication.
- Abstract(参考訳): ドメイン不変の視覚表現を学習することは、未確認のタスクドメインにうまく一般化できるモデルを訓練する上で重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれており、ドメイン一般化問題に対する効果的なピボット埋め込みとして、このような補助的なセマンティック・キューが利用できることが示されている。
しかし、それらはグローバルな方法でのピボット埋め込み(すなわち、画像埋め込みと文レベルのテキスト埋め込み)を使用しており、与えられたテキスト記述のセマンティックキューを完全に活用していない。
本研究では,画像領域と対応するテキスト記述間の局所的なアライメントの利用を提唱する。
この目的のために、まず画像とテキストの入力をグラフで表現する。
その後、これらのグラフにノードをクラスタ化し、グラフベースの画像ノードの特徴をテキストグラフにマッチさせる。
このマッチングプロセスは、視覚的およびテキスト的セマンティックなサブ構造を緊密に整列させ、グローバルかつ局所的に実行される。
我々は,CUB-DGやDomainBedなどの大規模公開データセットを用いて実験を行い,これらのデータセット上での適合あるいは最先端のパフォーマンスを実現する。
私たちのコードは出版時に公開されます。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Text-Guided Image Clustering [15.217924518131268]
本稿では,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成するテキストガイド画像クラスタリングを提案する。
その結果,8種類の画像クラスタリングデータセットに対して,得られたテキスト表現が画像特徴より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-05T13:34:21Z) - Adapt Anything: Tailor Any Image Classifiers across Domains And
Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。
対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文 参考訳(メタデータ) (2023-10-25T11:58:14Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Disentangled Motif-aware Graph Learning for Phrase Grounding [48.64279161780489]
画像中のフレーズ接地のための新しいグラフ学習フレームワークを提案する。
モチーフを認識した文脈情報を表現に組み込むために,不連続グラフネットワークを考案する。
私たちのモデルはFlickr30K EntitiesとReferIt Gameベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T08:20:07Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。