論文の概要: SceneTrilogy: On Scene Sketches and its Relationship with Text and Photo
- arxiv url: http://arxiv.org/abs/2204.11964v1
- Date: Mon, 25 Apr 2022 20:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 02:37:54.359927
- Title: SceneTrilogy: On Scene Sketches and its Relationship with Text and Photo
- Title(参考訳): 風景三部作-場面スケッチとテキスト・写真との関係について
- Authors: Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Tao Xiang and Yi-Zhe
Song
- Abstract要約: 我々は、初めてマルチモーダルなシーン理解を拡張して、フリーハンドのシーンスケッチを含むようにした。
我々は,共同スケッチやテキストベースの画像検索,スケッチキャプションなど,シーン固有の一連のアプリケーションについて初めて研究する。
- 参考スコア(独自算出の注目度): 119.30856550232697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We for the first time extend multi-modal scene understanding to include that
of free-hand scene sketches. This uniquely results in a trilogy of scene data
modalities (sketch, text, and photo), where each offers unique perspectives for
scene understanding, and together enable a series of novel scene-specific
applications across discriminative (retrieval) and generative (captioning)
tasks. Our key objective is to learn a common three-way embedding space that
enables many-to-many modality interactions (e.g, sketch+text $\rightarrow$
photo retrieval). We importantly leverage the information bottleneck theory to
achieve this goal, where we (i) decouple intra-modality information by
minimising the mutual information between modality-specific and
modality-agnostic components via a conditional invertible neural network, and
(ii) align \textit{cross-modalities information} by maximising the mutual
information between their modality-agnostic components using InfoNCE, with a
specific multihead attention mechanism to allow many-to-many modality
interactions. We spell out a few insights on the complementarity of each
modality for scene understanding, and study for the first time a series of
scene-specific applications like joint sketch- and text-based image retrieval,
sketch captioning.
- Abstract(参考訳): 我々は初めてマルチモーダルなシーン理解を拡張して、フリーハンドのシーンスケッチを含むようにした。
これは、シーンデータモダリティ(スケッチ、テキスト、写真)の三部作となり、それぞれがシーン理解のためのユニークな視点を提供し、同時に、識別(検索)タスクと生成(カプセル化)タスクにまたがる、一連の新しいシーン固有のアプリケーションを可能にする。
我々の主要な目的は、多対多のモダリティ相互作用を可能にする共通の3方向埋め込み空間(例: sketch+text $\rightarrow$ photo search)を学ぶことである。
我々は、この目標を達成するために、情報ボトルネック理論を重要利用します。
(i)条件付きインバータブルニューラルネットワークによるモダリティ固有成分とモダリティ非依存成分間の相互情報を最小化することにより、モダリティ内情報を分離する。
(ii)情報を用いたモダリティ非依存成分間の相互情報を最大化し、多対多のモダリティ相互作用を可能にする特定のマルチヘッドアテンション機構により、 \textit{cross-modalities information}を調整する。
シーン理解のための各モダリティの相補性に関するいくつかの知見を述べ、ジョイントスケッチやテキストベースの画像検索、スケッチキャプションといったシーン固有の応用を初めて研究した。
関連論文リスト
- Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文 参考訳(メタデータ) (2024-07-01T05:32:06Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。