論文の概要: I Want This Product but Different : Multimodal Retrieval with Synthetic
Query Expansion
- arxiv url: http://arxiv.org/abs/2102.08871v1
- Date: Wed, 17 Feb 2021 17:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 20:35:57.907312
- Title: I Want This Product but Different : Multimodal Retrieval with Synthetic
Query Expansion
- Title(参考訳): この製品を欲しがるが、異なる : 合成クエリ拡張によるマルチモーダル検索
- Authors: Ivona Tautkute and Tomasz Trzcinski
- Abstract要約: 本稿では,合成画像をアンカーとして使用し,生成画像と対象画像の埋め込み距離を最適化する新しいトリプルトマイニング手法を提案する。
提案手法は,合成画像による検索イラストレーションの付加価値と,カスタマイズとユーザフィードバックに焦点をあてて,他のマルチモーダル生成手法をはるかに上回ることを示す。
- 参考スコア(独自算出の注目度): 22.158569214786606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of media retrieval using a multimodal query
(a query which combines visual input with additional semantic information in
natural language feedback). We propose a SynthTriplet GAN framework which
resolves this task by expanding the multimodal query with a synthetically
generated image that captures semantic information from both image and text
input. We introduce a novel triplet mining method that uses a synthetic image
as an anchor to directly optimize for embedding distances of generated and
target images. We demonstrate that apart from the added value of retrieval
illustration with synthetic image with the focus on customization and user
feedback, the proposed method greatly surpasses other multimodal generation
methods and achieves state of the art results in the multimodal retrieval task.
We also show that in contrast to other retrieval methods, our method provides
explainable embeddings.
- Abstract(参考訳): 本稿では,マルチモーダルクエリ(視覚入力と自然言語フィードバックの付加的な意味情報を組み合わせたクエリ)を用いたメディア検索の問題に対処する。
画像入力とテキスト入力の両方から意味情報をキャプチャする合成画像を用いてマルチモーダルクエリを拡張することで,この課題を解決するSynthTriplet GANフレームワークを提案する。
本稿では,合成画像をアンカーとして使用し,生成画像と対象画像の埋め込み距離を直接最適化する新しいトリプルトマイニング手法を提案する。
本手法は,カスタマイズとユーザフィードバックに着目した合成画像を用いた検索イラストの付加価値を別にして,他のマルチモーダル生成手法を大きく超え,マルチモーダル検索タスクにおける成果の状態を実現できることを示す。
また,他の検索手法とは対照的に,本手法は説明可能な埋め込みを提供する。
関連論文リスト
- Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Unified Multi-Modal Image Synthesis for Missing Modality Imputation [23.681228202899984]
そこで本研究では,モダリティの欠如を抑えるために,新しいマルチモーダル画像合成法を提案する。
提案手法は, 各種合成タスクの処理に有効であり, 従来の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-11T16:59:15Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - UniMS: A Unified Framework for Multimodal Summarization with Knowledge
Distillation [43.15662489492694]
本稿では,BART,UniMSに基づくマルチモーダル要約のための統一フレームワークを提案する。
我々は、画像選択を改善するために、視覚言語事前学習モデルから知識蒸留を採用する。
我々の最良のモデルは、大規模ベンチマークデータセットで新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T09:36:04Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。