Fugu-MT 論文翻訳(概要): Image Search with Text Feedback by Additive Attention Compositional Learning

論文の概要: Image Search with Text Feedback by Additive Attention Compositional Learning

arxiv url: http://arxiv.org/abs/2203.03809v1
Date: Tue, 8 Mar 2022 02:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-10 02:07:54.054064
Title: Image Search with Text Feedback by Additive Attention Compositional Learning
Title（参考訳）: 追加注意構成学習によるテキストフィードバックによる画像検索
Authors: Yuxin Tian, Shawn Newsam, Kofi Boakye
Abstract要約: 本稿では,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく画像テキスト合成モジュールを提案する。 AACLは3つの大規模データセット(FashionIQ、Fashion200k、Shopping100k)で評価される
参考スコア（独自算出の注目度）: 1.4395184780210915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective image retrieval with text feedback stands to impact a range of real-world applications, such as e-commerce. Given a source image and text feedback that describes the desired modifications to that image, the goal is to retrieve the target images that resemble the source yet satisfy the given modifications by composing a multi-modal (image-text) query. We propose a novel solution to this problem, Additive Attention Compositional Learning (AACL), that uses a multi-modal transformer-based architecture and effectively models the image-text contexts. Specifically, we propose a novel image-text composition module based on additive attention that can be seamlessly plugged into deep neural networks. We also introduce a new challenging benchmark derived from the Shopping100k dataset. AACL is evaluated on three large-scale datasets (FashionIQ, Fashion200k, and Shopping100k), each with strong baselines. Extensive experiments show that AACL achieves new state-of-the-art results on all three datasets.
Abstract（参考訳）: テキストフィードバックによる効果的な画像検索は、eコマースのような現実世界のアプリケーションに影響を及ぼす。その画像に所望の修正を記述したソースイメージとテキストフィードバックが与えられた場合、目標は、マルチモーダル(イメージテキスト)クエリを構成することで、ソースに類似しているが、所定の修正を満足するターゲットイメージを取得することである。本稿では,マルチモーダルトランスフォーマーアーキテクチャを用いて,画像テキストコンテキストを効果的にモデル化する,付加的注意合成学習(aacl)という新しい解法を提案する。具体的には,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく新しい画像テキスト合成モジュールを提案する。 shopping100kデータセットから派生した,新たな挑戦的ベンチマークも紹介する。 aaclは、3つの大規模データセット(fashioniq, fashion200k, shopping100k)で評価される。大規模な実験により、AACLは3つのデータセットすべてに対して新しい最先端の結果を達成することが示された。

関連論文リスト

Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
SCOT: Self-Supervised Contrastive Pretraining For Zero-Shot Compositional Retrieval [7.248145893361865]
合成画像検索(CIR)は、クエリ画像をユーザが提供するテキスト修正と組み合わせてターゲット画像を取得するマルチモーダル学習タスクである。既存の方法は、FashionIQやCIRRといったラベル付き三重項のデータセットに基づいてモデルをトレーニングする、完全に教師付き学習に重点を置いている。本研究では,既存の大規模画像・テキスト・ペア・データセットと大規模言語モデルの生成機能を組み合わせて,組込み合成ネットワークを対照的に訓練するゼロショット合成事前学習戦略であるSCOTを提案する。
論文参考訳（メタデータ） (2025-01-12T07:23:49Z)
Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文参考訳（メタデータ） (2024-07-01T05:32:06Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。学習を通してStrucTexTv3の知覚と理解能力を高める。提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文参考訳（メタデータ） (2024-05-31T16:55:04Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
Transformer based Multitask Learning for Image Captioning and Object Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文参考訳（メタデータ） (2024-03-10T19:31:13Z)
Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文参考訳（メタデータ） (2023-11-24T20:16:38Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2021-04-07T09:41:52Z)
SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文参考訳（メタデータ） (2020-09-03T06:55:23Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。