論文の概要: RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network
- arxiv url: http://arxiv.org/abs/2104.03015v2
- Date: Thu, 8 Apr 2021 23:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 13:36:04.161762
- Title: RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network
- Title(参考訳): RTIC:グラフ畳み込みネットワークを用いたテキスト・画像合成のための残差学習
- Authors: Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu
- Abstract要約: 画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 19.017377597937617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the compositional learning of images and texts for
image retrieval. The query is given in the form of an image and text that
describes the desired modifications to the image; the goal is to retrieve the
target image that satisfies the given modifications and resembles the query by
composing information in both the text and image modalities. To accomplish this
task, we propose a simple new architecture using skip connections that can
effectively encode the errors between the source and target images in the
latent space. Furthermore, we introduce a novel method that combines the graph
convolutional network (GCN) with existing composition methods. We find that the
combination consistently improves the performance in a plug-and-play manner. We
perform thorough and exhaustive experiments on several widely used datasets,
and achieve state-of-the-art scores on the task with our model. To ensure
fairness in comparison, we suggest a strict standard for the evaluation because
a small difference in the training conditions can significantly affect the
final performance. We release our implementation, including that of all the
compared methods, for reproducibility.
- Abstract(参考訳): 本稿では,画像検索のための画像とテキストの合成学習について検討する。
クエリは、画像に対する所望の修正を記述した画像とテキストの形式で与えられる。目標は、与えられた修正を満たすターゲットイメージを検索し、テキストと画像のモダリティの両方で情報を構成することでクエリに類似させることである。
この課題を達成するために,スキップ接続を用いた簡易な新しいアーキテクチャを提案し,遅延空間におけるソースとターゲット画像間のエラーを効果的に符号化する。
さらに,グラフ畳み込みネットワーク(GCN)と既存の合成手法を組み合わせた新しい手法を提案する。
この組み合わせは、プラグアンドプレイ方式でパフォーマンスを一貫して改善する。
広く使われているデータセットで徹底的で徹底的な実験を行い、このモデルでタスクの最先端のスコアを得る。
トレーニング条件の差が最終成績に大きく影響するため, 比較の公平性を確保するため, 評価の厳格な基準を提案する。
再現性のために、比較したすべてのメソッドを含む実装をリリースします。
関連論文リスト
- ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Image Retrieval for Structure-from-Motion via Graph Convolutional
Network [13.040952255039702]
本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。
問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。
実験により,本手法は高度にあいまいで重複したシーンの挑戦的データセットにおいて,極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:03:51Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。