論文の概要: UIGR: Unified Interactive Garment Retrieval
- arxiv url: http://arxiv.org/abs/2204.03111v1
- Date: Wed, 6 Apr 2022 21:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-04-09 07:12:05.157572
- Title: UIGR: Unified Interactive Garment Retrieval
- Title(参考訳): UIGR: 統一されたインタラクティブガーメント検索
- Authors: Xiao Han, Sen He, Li Zhang, Yi-Zhe Song, Tao Xiang
- Abstract要約: 対話型衣服検索(IGR)は、基準衣服画像に基づいて対象衣服画像を検索することを目的としている。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 105.56179829647142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive garment retrieval (IGR) aims to retrieve a target garment image
based on a reference garment image along with user feedback on what to change
on the reference garment. Two IGR tasks have been studied extensively:
text-guided garment retrieval (TGR) and visually compatible garment retrieval
(VCR). The user feedback for the former indicates what semantic attributes to
change with the garment category preserved, while the category is the only
thing to be changed explicitly for the latter, with an implicit requirement on
style preservation. Despite the similarity between these two tasks and the
practical need for an efficient system tackling both, they have never been
unified and modeled jointly. In this paper, we propose a Unified Interactive
Garment Retrieval (UIGR) framework to unify TGR and VCR. To this end, we first
contribute a large-scale benchmark suited for both problems. We further propose
a strong baseline architecture to integrate TGR and VCR in one model. Extensive
experiments suggest that unifying two tasks in one framework is not only more
efficient by requiring a single model only, it also leads to better
performance. Code and datasets are available at
https://github.com/BrandonHanx/CompFashion.
- Abstract(参考訳): 対話型衣料検索(IGR)は,参照衣料画像に基づいて対象の衣料画像を検索し,参照衣料に何を変更するかというユーザのフィードバックを得る。
テキスト誘導衣料検索(TGR)と視覚互換衣料検索(VCR)の2つのタスクが広く研究されている。
前者のユーザフィードバックは、衣料品カテゴリーを保存して変更すべき意味的属性を示し、後者について明示的に変更すべきのはカテゴリのみであり、スタイル保存には暗黙の要件がある。
これら2つのタスクの類似性と、両方に取り組む効率的なシステムの実現の必要性にもかかわらず、これらは統一され、共同でモデル化されることはなかった。
本稿では,TGRとVCRを統合するためのUIGR(Unified Interactive Garment Retrieval)フレームワークを提案する。
この目的のために、我々はまず両方の問題に合った大規模なベンチマークを提出する。
さらに,TGRとVCRを一つのモデルに統合する強力なベースラインアーキテクチャを提案する。
広範な実験により、1つのフレームワークで2つのタスクを統合することは、1つのモデルのみを必要とすることで効率が向上するだけでなく、パフォーマンスも向上することが示唆された。
コードとデータセットはhttps://github.com/BrandonHanx/CompFashion.comで入手できる。
関連論文リスト
- A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces [34.59674580962045]
本稿では,階層型検索インタフェースを直接モデルに公開するエージェントRAGフレームワークであるA-RAGを紹介する。
A-RAGはキーワード検索、セマンティック検索、チャンク読み取りという3つの検索ツールを提供する。
複数のオープンドメインQAベンチマークの実験は、A-RAGが既存のアプローチを同等または低いトークンで一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-03T12:07:21Z) - Leveraging Spreading Activation for Improved Document Retrieval in Knowledge-Graph-Based RAG Systems [0.0]
Retrieval-augmented Generation (RAG) システムは、複雑な推論タスクに必要な多段階の証拠を確実に回収し、接続するのに苦労する。
標準的なRAGフレームワークのほとんどは、検索された全ての情報を、大きなテキストコーパスの様々な信頼性と相互接続性を見越して、等しく信頼できるものとみなしている。
自動構築された知識グラフによって相互接続された文書のコーパスから情報を取得するために,拡散活性化アルゴリズムを用いた新しいRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-17T19:38:35Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - Select, Read, and Write: A Multi-Agent Framework of Full-Text-based Related Work Generation [30.269522560606138]
本稿では,フルテキストベースのRWGタスクに着目し,新しいマルチエージェントフレームワークを提案する。
本フレームワークは,論文のどのセクションを次に読むかを決定するセレクタ,選択したセクションをダイジェストして共有作業メモリを更新するリーダ,最終キュレートされたメモリに基づいてRWSを生成するライターの3つのエージェントから構成される。
論文 参考訳(メタデータ) (2025-05-26T08:02:34Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision [43.50113345998687]
RAG-Gymは、情報検索エージェントを、各検索ステップにおけるきめ細かいプロセス管理によって強化する統合最適化フレームワークである。
また、RAG-Gymフレームワーク内での応答推論と検索クエリ生成を相乗化する新しいエージェントアーキテクチャであるReSearchを提案する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Don't Forget to Connect! Improving RAG with Graph-based Reranking [26.433218248189867]
本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。
提案手法は,文書と意味情報の相互接続(抽象表現平均グラフ)を組み合わせ,RAGの文脈インフォームドローダを提供する。
G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2024-05-28T17:56:46Z) - Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - Learning Granularity-Unified Representations for Text-to-Image Person
Re-identification [29.04254233799353]
ReID(text-to-image person re-identification)は、関心のある人物の歩行者イメージをテキスト記述で検索することを目的としている。
現存する作品は、通常、2つのモード間の特徴の粒度の違いを無視する。
本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-16T01:26:10Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。