論文の概要: ICAR: Image-based Complementary Auto Reasoning
- arxiv url: http://arxiv.org/abs/2308.09119v1
- Date: Thu, 17 Aug 2023 17:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:46:35.508617
- Title: ICAR: Image-based Complementary Auto Reasoning
- Title(参考訳): ICAR:画像による補足型自動推論
- Authors: Xijun Wang, Anqi Liang, Junbang Liang, Ming Lin, Yu Lou, Shan Yang
- Abstract要約: 本稿では、類似性(色、幾何学、テクスチャなど)と相補性(テーブルと椅子の組立など)からなる視覚互換性の概念を提案する。
本稿では,フレキシブルマスク付きエンコーダ,カテゴリ予測アーム,自動回帰視覚埋め込み予測アームを備えた「フレキシブル双方向変換器(FBT)」を提案する。
SOTA法と比較すると、FITBでは最大5.3%、FITBでは9.6%、ファッションや家具では22.3%、SFIDでは31.8%となる。
- 参考スコア(独自算出の注目度): 25.154915037216973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene-aware Complementary Item Retrieval (CIR) is a challenging task which
requires to generate a set of compatible items across domains. Due to the
subjectivity, it is difficult to set up a rigorous standard for both data
collection and learning objectives. To address this challenging task, we
propose a visual compatibility concept, composed of similarity (resembling in
color, geometry, texture, and etc.) and complementarity (different items like
table vs chair completing a group). Based on this notion, we propose a
compatibility learning framework, a category-aware Flexible Bidirectional
Transformer (FBT), for visual "scene-based set compatibility reasoning" with
the cross-domain visual similarity input and auto-regressive complementary item
generation. We introduce a "Flexible Bidirectional Transformer (FBT)"
consisting of an encoder with flexible masking, a category prediction arm, and
an auto-regressive visual embedding prediction arm. And the inputs for FBT are
cross-domain visual similarity invariant embeddings, making this framework
quite generalizable. Furthermore, our proposed FBT model learns the
inter-object compatibility from a large set of scene images in a
self-supervised way. Compared with the SOTA methods, this approach achieves up
to 5.3% and 9.6% in FITB score and 22.3% and 31.8% SFID improvement on fashion
and furniture, respectively.
- Abstract(参考訳): Scene-aware Complementary Item Retrieval (CIR)は、ドメイン間で互換性のある項目のセットを生成する必要がある難しいタスクである。
主観性のため、データ収集と学習目的の両方の厳密な基準を設定することは困難である。
この課題に対処するために,類似性(色,幾何学,テクスチャなど)と相補性(テーブルとチェアがグループを完結させるような異なる項目)からなる視覚的相性概念を提案する。
この概念に基づいて、クロスドメインな視覚的類似性入力と自動回帰的補完アイテム生成を備えた視覚的「シーンベース・セット整合性推論」のための整合性学習フレームワーク、カテゴリー対応フレキシブル双方向変換器(FBT)を提案する。
本稿では,フレキシブルマスク付きエンコーダ,カテゴリ予測アーム,自動回帰視覚埋め込み予測アームを備えた「フレキシブル双方向変換器(FBT)」を提案する。
そしてfbtの入力は、クロスドメインの視覚的類似性不変埋め込みであり、このフレームワークは、かなり一般化できる。
さらに,提案するFBTモデルは,大規模なシーン画像からオブジェクト間の互換性を自己監督的に学習する。
sota法と比較して、このアプローチはフィッブスコアで最大5.3%と9.6%、ファッションと家具でそれぞれ22.3%と31.8%のsid改善を達成している。
関連論文リスト
- Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable
Style [40.112168046676125]
本稿では,ゼロショートスケッチに基づく画像検索(ZS-SBIR)の問題点について検討する。
鍵となる革新は、そのようなクロスモーダルマッチング問題は、主要なローカルパッチのグループの比較に還元できる、という認識にある。
実験では、ZS-SBIRのすべての設定で優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-03-25T03:52:32Z) - X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文 参考訳(メタデータ) (2022-10-13T06:42:46Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection [46.03951171790736]
3Dオブジェクト検出のための自動機能融合戦略であるtextitAutoAlignを提案する。
提案手法は,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善につながることを示す。
論文 参考訳(メタデータ) (2022-01-17T16:08:57Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Devil's in the Details: Aligning Visual Clues for Conditional Embedding
in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。
CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-11T06:28:56Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。