論文の概要: Cross-Modal Coherence for Text-to-Image Retrieval
- arxiv url: http://arxiv.org/abs/2109.11047v1
- Date: Wed, 22 Sep 2021 21:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-25 02:05:54.545211
- Title: Cross-Modal Coherence for Text-to-Image Retrieval
- Title(参考訳): テキスト・画像検索のためのクロスモーダルコヒーレンス
- Authors: Malihe Alikhani, Fangda Han, Hareesh Ravi, Mubbasir Kapadia, Vladimir
Pavlovic, Matthew Stone
- Abstract要約: 我々はテキスト・ツー・イメージ検索タスクに対して,クロスモーダル・コヒーレンス・モデル(Cross-Modal Coherence Model)を訓練する。
画像・テキスト・コヒーレンス関係を訓練したモデルでは,コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・モデルよりも,元来ターゲットテキストとペアリングした画像の検索が可能であった。
本研究は,テキストや画像のコモンセンス推論を捉える上で,異なるモダリティがコミュニケーションする方法,コヒーレンス関係の役割について考察した。
- 参考スコア(独自算出の注目度): 35.82045187976062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common image-text joint understanding techniques presume that images and the
associated text can universally be characterized by a single implicit model.
However, co-occurring images and text can be related in qualitatively different
ways, and explicitly modeling it could improve the performance of current joint
understanding models. In this paper, we train a Cross-Modal Coherence Modelfor
text-to-image retrieval task. Our analysis shows that models trained with
image--text coherence relations can retrieve images originally paired with
target text more often than coherence-agnostic models. We also show via human
evaluation that images retrieved by the proposed coherence-aware model are
preferred over a coherence-agnostic baseline by a huge margin. Our findings
provide insights into the ways that different modalities communicate and the
role of coherence relations in capturing commonsense inferences in text and
imagery.
- Abstract(参考訳): 共通画像テキスト共同理解技術は、画像と関連するテキストが単一の暗黙のモデルによって普遍的に特徴づけられると仮定する。
しかし、画像とテキストの共起は定性的に異なる方法で関連付けられ、明確にモデリングすることで、現在の共同理解モデルの性能を向上させることができる。
本稿では,テキスト対画像検索タスクのためのクロスモーダルコヒーレンスモデルを訓練する。
画像テキストのコヒーレンス関係で訓練したモデルでは、コヒーレンスに依存しないモデルよりも、元来ターゲットテキストとペアのイメージを検索することができる。
また,提案したコヒーレンス認識モデルにより得られた画像は,コヒーレンス認識ベースラインよりも大きなマージンで優先されることを示す。
本研究は,テキストや画像における共通認識推論を捉える上で,異なるモダリティのコミュニケーション方法とコヒーレンス関係の役割に関する知見を提供する。
関連論文リスト
- Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文 参考訳(メタデータ) (2024-06-05T13:10:55Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Clue: Cross-modal Coherence Modeling for Caption Generation [38.12058832538408]
談話の計算モデルにインスパイアされたコヒーレンス関係を用いて,画像キャプションにおける情報ニーズと目標について検討する。
画像とテキストで推論を学習するための新しいタスクを導入し、これらのコヒーレンスアノテーションを利用して関係分類器を中間的なステップとして学習することができることを示す。
その結果,コヒーレンス関係によって規定される情報ニーズに対して,生成したキャプションの一貫性と品質が劇的に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-02T19:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。