論文の概要: A Visual RAG Pipeline for Few-Shot Fine-Grained Product Classification
- arxiv url: http://arxiv.org/abs/2504.11838v1
- Date: Wed, 16 Apr 2025 07:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:41.330136
- Title: A Visual RAG Pipeline for Few-Shot Fine-Grained Product Classification
- Title(参考訳): Few-Shot Fine-Grained Product 分類のためのビジュアルRAGパイプライン
- Authors: Bianca Lamm, Janis Keuper,
- Abstract要約: 本稿では,RAG (Retrieval Augmented Generation) アプローチと視覚言語モデル (Vision Language Models, VLM) を組み合わせた新しいビジュアルRAGパイプラインを提案する。
このVisual RAGパイプラインは、各種小売業者から商品及び宣伝データを抽出し、価格及び割引情報とともに、きめ細かい製品IDを同時に予測する。
以前のアプローチと比較して、Visual RAGパイプラインのキーとなる特徴は、RAGデータベースにいくつかのクラスサンプルを追加するだけで、再トレーニングせずに新しい製品の予測を可能にすることである。
- 参考スコア(独自算出の注目度): 8.04779839951237
- License:
- Abstract: Despite the rapid evolution of learning and computer vision algorithms, Fine-Grained Classification (FGC) still poses an open problem in many practically relevant applications. In the retail domain, for example, the identification of fast changing and visually highly similar products and their properties are key to automated price-monitoring and product recommendation. This paper presents a novel Visual RAG pipeline that combines the Retrieval Augmented Generation (RAG) approach and Vision Language Models (VLMs) for few-shot FGC. This Visual RAG pipeline extracts product and promotion data in advertisement leaflets from various retailers and simultaneously predicts fine-grained product ids along with price and discount information. Compared to previous approaches, the key characteristic of the Visual RAG pipeline is that it allows the prediction of novel products without re-training, simply by adding a few class samples to the RAG database. Comparing several VLM back-ends like GPT-4o [23], GPT-4o-mini [24], and Gemini 2.0 Flash [10], our approach achieves 86.8% accuracy on a diverse dataset.
- Abstract(参考訳): 学習アルゴリズムとコンピュータビジョンアルゴリズムの急速な進化にもかかわらず、ファイングラインド分類(FGC)は、多くの実用的な応用において依然として未解決の問題を提起している。
例えば、小売ドメインでは、急速に変化し、視覚的に非常に類似した製品とそれらの特性が、自動価格監視と製品レコメンデーションの鍵となる。
本稿では,RAG (Retrieval Augmented Generation) アプローチと視覚言語モデル (Vision Language Models, VLM) を組み合わせた新しいビジュアルRAGパイプラインを提案する。
このVisual RAGパイプラインは、各種小売業者から商品及び宣伝データを抽出し、価格及び割引情報とともに、きめ細かい製品IDを同時に予測する。
以前のアプローチと比較して、Visual RAGパイプラインのキーとなる特徴は、RAGデータベースにいくつかのクラスサンプルを追加するだけで、再トレーニングせずに新しい製品の予測を可能にすることである。
GPT-4o [23], GPT-4o-mini [24], Gemini 2.0 Flash [10]などのVLMバックエンドと比較すると, 多様なデータセット上で86.8%の精度を実現している。
関連論文リスト
- SGIA: Enhancing Fine-Grained Visual Classification with Sequence Generative Image Augmentation [16.642582574494742]
本稿では,FGVCデータセットを付加するためのSGIA(Sequence Generative Image Augmentation)を提案する。
本手法は,実データと合成データとの領域ギャップを最小限に抑えるために,独自のブリッジング・トランスファー・ラーニング・プロセスを備えている。
我々の研究は、CUB-200-2011データセットに対して、新しいベンチマークを設定し、従来の最先端モデルの分類精度を0.5%向上させる。
論文 参考訳(メタデータ) (2024-12-09T01:39:46Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail [8.04779839951237]
本稿では,視覚質問応答タスクにおける視覚言語モデル(VLM)の性能と限界について分析する。
我々は、Retail-786kデータセットから得られたデータを用いて、事前訓練されたVLMの能力を調べ、画像内の広告商品に関する詳細な質問に答える。
論文 参考訳(メタデータ) (2024-08-28T08:25:41Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Pre-training Graph Transformer with Multimodal Side Information for
Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。
我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。
The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文 参考訳(メタデータ) (2020-10-23T10:30:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。