論文の概要: Fashion-IQ 2020 Challenge 2nd Place Team's Solution
- arxiv url: http://arxiv.org/abs/2007.06404v1
- Date: Mon, 13 Jul 2020 14:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:16:48.084716
- Title: Fashion-IQ 2020 Challenge 2nd Place Team's Solution
- Title(参考訳): fashion-iq 2020が2位チームのソリューションに挑戦
- Authors: Minchul Shin, Yoonjae Cho, Seongwuk Hong
- Abstract要約: 本稿では,CVPR 2020におけるFashion-IQチャレンジへのチームVOAのアプローチについて述べる。
テキストと画像のモダリティを意味空間に効果的に組み合わせることのできる,新しい多モーダル合成手法 RTIC を提案する。
われわれのアプローチはFashion-IQ 2020 Challengeで2位となり、テストスコアは48.02だった。
- 参考スコア(独自算出の注目度): 6.660458629649825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is dedicated to team VAA's approach submitted to the Fashion-IQ
challenge in CVPR 2020. Given a pair of the image and the text, we present a
novel multimodal composition method, RTIC, that can effectively combine the
text and the image modalities into a semantic space. We extract the image and
the text features that are encoded by the CNNs and the sequential models (e.g.,
LSTM or GRU), respectively. To emphasize the meaning of the residual of the
feature between the target and candidate, the RTIC is composed of N-blocks with
channel-wise attention modules. Then, we add the encoded residual to the
feature of the candidate image to obtain a synthesized feature. We also
explored an ensemble strategy with variants of models and achieved a
significant boost in performance comparing to the best single model. Finally,
our approach achieved 2nd place in the Fashion-IQ 2020 Challenge with a test
score of 48.02 on the leaderboard.
- Abstract(参考訳): 本稿では,CVPR 2020におけるFashion-IQチャレンジへのチームVOAのアプローチについて述べる。
画像とテキストのペアが与えられた場合、テキストと画像のモダリティを効果的に意味空間に結合できる新しいマルチモーダル合成法RTICを提案する。
画像とテキストの特徴をそれぞれcnnとシーケンシャルモデル(lstmやgrgなど)で符号化して抽出する。
RTICは、目標と候補との間の特徴の残差の意味を強調するために、チャネルワイドアテンションモジュールを備えたNブロックで構成されている。
次に、符号化残差を候補画像の特徴に付加して合成特徴量を得る。
また,モデルの変種によるアンサンブル戦略についても検討し,最良単一モデルと比較して性能が大幅に向上した。
最終的に、我々のアプローチはFashion-IQ 2020 Challengeで2位となり、テストスコアは48.02となった。
関連論文リスト
- MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。
従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。
本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文 参考訳(メタデータ) (2024-06-08T01:45:06Z) - ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。
提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。
また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文 参考訳(メタデータ) (2024-04-15T21:19:10Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Leveraging Visual Question Answering to Improve Text-to-Image Synthesis [5.4897944234841445]
本稿では,テキスト・ツー・イメージ(T2I)合成と視覚質問応答(VQA)を併用して画像品質と画像・テキストアライメントを改善する効果的な方法を提案する。
質問と回答(QA)ペアを連結して追加のトレーニングサンプルを作成し、標準VQAモデルを用いてT2Iモデルに補助的な学習信号を提供する。
本法では,FIDを27.84から25.38に低下させ,R-prec>を83.82%から84.79%に上昇させる。
論文 参考訳(メタデータ) (2020-10-28T13:11:34Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - CurlingNet: Compositional Learning between Images and Text for Fashion
IQ Data [52.714534304697395]
本稿では,画像テキスト埋め込みの合成のセマンティック距離を計測できるCurlingNetという手法を提案する。
ファッション領域のデータに対して効果的な画像テキスト合成を学習するために,本モデルでは2つの重要な要素を提案する。
ICCV 2019では、私たちのモデルのアンサンブルが最高のパフォーマンスの1つを達成する最初のファッション-IQチャレンジに参加します。
論文 参考訳(メタデータ) (2020-03-27T09:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。