論文の概要: Bridging the Domain Gap by Clustering-based Image-Text Graph Matching
- arxiv url: http://arxiv.org/abs/2310.02692v1
- Date: Wed, 4 Oct 2023 10:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:50:28.268277
- Title: Bridging the Domain Gap by Clustering-based Image-Text Graph Matching
- Title(参考訳): クラスタリングによる画像テキストグラフマッチングによる領域ギャップのブリッジ
- Authors: Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun-Sol Kim,
Jinkyu Kim
- Abstract要約: ドメイン不変表現は、未確認のターゲットタスクドメインに適切に一般化できるモデルをトレーニングするために重要である。
ここでは、ドメイン不変のピボット埋め込みを得るために、マルチモーダルグラフ表現、画像とテキストを融合させる。
具体的には,画像記述とテキスト記述をグラフで表現し,(ii)グラフベースの画像ノードの特徴を同時にテキストグラフにクラスタリングし,マッチングすることにより,ドメイン不変の特徴を学習することを目的とする。
- 参考スコア(独自算出の注目度): 14.068949965004045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning domain-invariant representations is important to train a model that
can generalize well to unseen target task domains. Text descriptions inherently
contain semantic structures of concepts and such auxiliary semantic cues can be
used as effective pivot embedding for domain generalization problems. Here, we
use multimodal graph representations, fusing images and text, to get
domain-invariant pivot embeddings by considering the inherent semantic
structure between local images and text descriptors. Specifically, we aim to
learn domain-invariant features by (i) representing the image and text
descriptions with graphs, and by (ii) clustering and matching the graph-based
image node features into textual graphs simultaneously. We experiment with
large-scale public datasets, such as CUB-DG and DomainBed, and our model
achieves matched or better state-of-the-art performance on these datasets. Our
code will be publicly available upon publication.
- Abstract(参考訳): ドメイン不変表現の学習は、対象とするタスクドメインを十分に一般化できるモデルを訓練する上で重要である。
テキスト記述は本質的に概念のセマンティック構造を含み、そのような補助的なセマンティックキューはドメインの一般化問題に対する効果的なピボット埋め込みとして利用することができる。
ここでは,画像とテキストを融合したマルチモーダルグラフ表現を用いて,局所画像とテキスト記述子間の固有の意味構造を考慮し,ドメイン不変なピボット埋め込みを実現する。
具体的には、ドメイン不変の特徴を学習することを目的とする。
(i)図による画像及びテキスト記述、及びそれによる表現
(ii)グラフベースの画像ノードの特徴をテキストグラフに同時マッチングすること。
我々は,CUB-DGやDomainBedといった大規模公開データセットを実験し,これらのデータセット上での適合あるいは最先端のパフォーマンスを実現する。
私たちのコードは出版時に公開されます。
関連論文リスト
- Text-Guided Image Clustering [15.217924518131268]
本稿では,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成するテキストガイド画像クラスタリングを提案する。
その結果,8種類の画像クラスタリングデータセットに対して,得られたテキスト表現が画像特徴より優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-05T13:34:21Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Disentangled Motif-aware Graph Learning for Phrase Grounding [48.64279161780489]
画像中のフレーズ接地のための新しいグラフ学習フレームワークを提案する。
モチーフを認識した文脈情報を表現に組み込むために,不連続グラフネットワークを考案する。
私たちのモデルはFlickr30K EntitiesとReferIt Gameベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T08:20:07Z) - Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer [140.72439827136085]
グラフィノノミー(Graphonomy)というグラフ推論・伝達学習フレームワークを提案する。
人間の知識とラベル分類を、局所畳み込みを超えた中間グラフ表現学習に組み込んでいる。
意味認識グラフの推論と転送を通じて、複数のドメインにおけるグローバルおよび構造化されたセマンティックコヒーレンシーを学習する。
論文 参考訳(メタデータ) (2021-01-26T08:19:03Z) - DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image
Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。
私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。
本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文 参考訳(メタデータ) (2020-10-13T07:28:39Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings [76.85673049332428]
画像とテキストの合同表現の学習は、画像キャプションのようないくつかの重要なドメイン横断タスクのバックボーンを形成する。
ドメイン間の共有情報とドメイン固有の情報を個別にモデル化する,新しい半教師付きフレームワークを提案する。
画像キャプションやテキスト・ツー・イメージ合成など,様々なタスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-02-16T19:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。