Fugu-MT 論文翻訳(概要): Visual Product Search Benchmark

論文の概要: Visual Product Search Benchmark

arxiv url: http://arxiv.org/abs/2603.17186v1
Date: Tue, 17 Mar 2026 22:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.425852
Title: Visual Product Search Benchmark
Title（参考訳）: Visual Product Searchベンチマーク
Authors: Karthik Sulthanpete Govindappa,
Abstract要約: 本報告では、インスタンスレベルの画像検索のための最新の視覚埋め込みモデルの構造化されたベンチマークを示す。オープンソースのファウンデーション埋め込みモデル、プロプライエタリなマルチモーダル埋め込みシステム、ドメイン固有の視覚のみのモデルについて評価する。評価は後処理なしで行われ、各モデルの検索能力を分離する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliable product identification from images is a critical requirement in industrial and commercial applications, particularly in maintenance, procurement, and operational workflows where incorrect matches can lead to costly downstream failures. At the core of such systems lies the visual search component, which must retrieve and rank the exact object instance from large and continuously evolving catalogs under diverse imaging conditions. This report presents a structured benchmark of modern visual embedding models for instance-level image retrieval, with a focus on industrial applications. A curated set of open-source foundation embedding models, proprietary multi-modal embedding systems, and domain-specific vision-only models are evaluated under a unified image-to-image retrieval protocol. The benchmark includes curated datasets, which includes industrial datasets derived from production deployments in Manufacturing, Automotive, DIY, and Retail, as well as established public benchmarks. Evaluation is conducted without post-processing, isolating the retrieval capability of each model. The results provide insight into how well contemporary foundation and unified embedding models transfer to fine-grained instance retrieval tasks, and how they compare to models explicitly trained for industrial applications. By emphasizing realistic constraints, heterogeneous image conditions, and exact instance matching requirements, this benchmark aims to inform both practitioners and researchers about the strengths and limitations of current visual embedding approaches in production-level product identification systems. An interactive companion website presenting the benchmark results, evaluation details, and additional visualizations is available at https://benchmark.nyris.io.
Abstract（参考訳）: 画像からの信頼性の高い製品識別は、特にメンテナンス、調達、運用ワークフローにおいて、産業用および商業用アプリケーションにおいて重要な要件である。このようなシステムの中核にはビジュアル検索コンポーネントがあり、多様な画像条件下で、大規模かつ継続的な進化を続けるカタログから、正確なオブジェクトインスタンスを検索し、ランク付けする必要がある。本報告では, 産業応用に焦点をあてた, インスタンスレベルの画像検索のための最新の視覚埋め込みモデルの構造化されたベンチマークを示す。画像から画像への統合検索プロトコルを用いて、オープンソースの基盤埋め込みモデル、プロプライエタリなマルチモーダル埋め込みシステム、ドメイン固有の視覚のみのモデルについて評価する。このベンチマークには、マニュファクチャリング、Automotive、DIY、Retailのプロダクションデプロイメントに由来する産業データセットと、確立された公開ベンチマークを含む、キュレートされたデータセットが含まれている。評価は後処理なしで行われ、各モデルの検索能力を分離する。これらの結果から, ファインダストレーションモデルと統合組込みモデルが, きめ細かなインスタンス検索タスクにいかにうまく移行するか, 産業アプリケーションのために明示的に訓練されたモデルと比較するか, といった知見が得られた。このベンチマークは、現実的な制約、異種画像条件、および正確なインスタンスマッチング要件を強調することで、実運用レベルの製品識別システムにおける現在の視覚的埋め込みアプローチの強みと限界について、実践者と研究者双方に通知することを目的としている。ベンチマーク結果、評価の詳細、さらなる視覚化を提示するインタラクティブなコンパニオンWebサイトがhttps://benchmark.nyris.io.comで公開されている。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文参考訳（メタデータ） (2025-11-03T07:24:57Z)
An analysis of vision-language models for fabric retrieval [4.311804611758908]
情報検索やレコメンデーションシステムといったアプリケーションには,クロスモーダル検索が不可欠である。本稿では,ファブリックサンプルのゼロショットテキスト・ツー・イメージ検索におけるビジョン言語モデルの利用について検討する。
論文参考訳（メタデータ） (2025-07-07T08:00:18Z)
Synthetic Similarity Search in Automotive Production [0.4499833362998487]
本稿では,視覚に基づく基礎モデルと合成データを用いた類似性探索を組み合わせた新しい画像分類パイプラインを提案する。本手法を実世界の8つの検査シナリオで評価し,実運用環境における高い性能要件を満たすことを示す。
論文参考訳（メタデータ） (2025-05-12T06:10:48Z)
ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。 ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文参考訳（メタデータ） (2024-07-29T13:57:24Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
Investigation of the Impact of Synthetic Training Data in the Industrial Application of Terminal Strip Object Detection [4.327763441385371]
本稿では,端末ストリップ物体検出の複雑な産業応用における標準対象検出器のシム・トゥ・リアル一般化性能について検討する。評価のために300個の実画像に手動でアノテートを行った結果,どちらの領域でも同じ規模の興味の対象が重要であることがわかった。
論文参考訳（メタデータ） (2024-03-06T18:33:27Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。