論文の概要: SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo
and Text
- arxiv url: http://arxiv.org/abs/2204.11964v3
- Date: Sun, 26 Mar 2023 13:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 03:32:43.090167
- Title: SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo
and Text
- Title(参考訳): SceneTrilogy:人間のSketchと写真とテキストの相補性について
- Authors: Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Aneeshan Sain and
Subhadeep Koley and Tao Xiang and Yi-Zhe Song
- Abstract要約: 本稿では,シーン理解を人間のスケッチに含めるように拡張する。
この相補性がもたらすオプションを完全にサポートするフレキシブルなジョイント埋め込みを学ぶことに注力します。
- 参考スコア(独自算出の注目度): 109.69076457732632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we extend scene understanding to include that of human sketch.
The result is a complete trilogy of scene representation from three diverse and
complementary modalities -- sketch, photo, and text. Instead of learning a
rigid three-way embedding and be done with it, we focus on learning a flexible
joint embedding that fully supports the ``optionality" that this
complementarity brings. Our embedding supports optionality on two axes: (i)
optionality across modalities -- use any combination of modalities as query for
downstream tasks like retrieval, (ii) optionality across tasks --
simultaneously utilising the embedding for either discriminative (e.g.,
retrieval) or generative tasks (e.g., captioning). This provides flexibility to
end-users by exploiting the best of each modality, therefore serving the very
purpose behind our proposal of a trilogy in the first place. First, a
combination of information-bottleneck and conditional invertible neural
networks disentangle the modality-specific component from modality-agnostic in
sketch, photo, and text. Second, the modality-agnostic instances from sketch,
photo, and text are synergised using a modified cross-attention. Once learned,
we show our embedding can accommodate a multi-facet of scene-related tasks,
including those enabled for the first time by the inclusion of sketch, all
without any task-specific modifications. Project Page:
\url{http://www.pinakinathc.me/scenetrilogy}
- Abstract(参考訳): 本稿では,シーン理解を人間のスケッチに含めるように拡張する。
その結果は、スケッチ、写真、テキストの3つの多様かつ相補的なモダリティから、シーン表現の完全な三部作となる。
堅固な3方向埋め込みを学習する代わりに、この相補性によってもたらされる‘オプティナリティ’を完全にサポートする柔軟なジョイント埋め込みを学ぶことに焦点を合わせます。
私たちの埋め込みは2つの軸に任意性をサポートする。
(i) モダリティ間のオプション性 -- 検索などの下流タスクのクエリとしてモダリティの組み合わせを使用する。
(ii)タスク間のオプション性 - 識別的(検索など)または生成的タスク(キャプションなど)の埋め込みを同義的に利用すること。
これによってエンドユーザは、それぞれのモダリティを最大限活用することで、柔軟性が得られます。
まず、情報ボトルネックと条件付きインバータブルニューラルネットワークの組み合わせは、スケッチ、写真、テキストにおいてモダリティに依存しないコンポーネントからモダリティ固有のコンポーネントを分離する。
第二に、スケッチ、写真、テキストからのモダリティ非依存のインスタンスは、修正されたクロスアテンションを使用してシナジー化される。
一度学んだら、私達の埋め込みは、タスク固有の修正なしに、スケッチを組み込むことによって初めて可能となるものを含む、シーン関連のタスクの多面体に対応できることを示します。
プロジェクトページ: \url{http://www.pinakinathc.me/scenetrilogy}
関連論文リスト
- Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文 参考訳(メタデータ) (2024-07-01T05:32:06Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。