論文の概要: LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval
- arxiv url: http://arxiv.org/abs/2601.14706v1
- Date: Wed, 21 Jan 2026 06:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.265867
- Title: LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval
- Title(参考訳): LookBench: ファッションイメージ検索のためのオープンベンチマーク
- Authors: Chao Gao, Siqiao Xue, Yimin Peng, Jiwen Fu, Tingyi Gu, Shanshan Li, Fan Zhou,
- Abstract要約: LookBenchは、実際のEコマース環境でのファッション画像検索のための、ライブで総合的で挑戦的なベンチマークである。
LookBenchには、ライブWebサイトからソースされた最近の製品イメージと、AIが生成したファッションイメージの両方が含まれている。
実験の結果,LookBenchは強いベースラインに重大な課題をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 28.812948794614034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present LookBench (We use the term "look" to reflect retrieval that mirrors how people shop -- finding the exact item, a close substitute, or a visually consistent alternative.), a live, holistic and challenging benchmark for fashion image retrieval in real e-commerce settings. LookBench includes both recent product images sourced from live websites and AI-generated fashion images, reflecting contemporary trends and use cases. Each test sample is time-stamped and we intend to update the benchmark periodically, enabling contamination-aware evaluation aligned with declared training cutoffs. Grounded in our fine-grained attribute taxonomy, LookBench covers single-item and outfit-level retrieval across. Our experiments reveal that LookBench poses a significant challenge on strong baselines, with many models achieving below $60\%$ Recall@1. Our proprietary model achieves the best performance on LookBench, and we release an open-source counterpart that ranks second, with both models attaining state-of-the-art results on legacy Fashion200K evaluations. LookBench is designed to be updated semi-annually with new test samples and progressively harder task variants, providing a durable measure of progress. We publicly release our leaderboard, dataset, evaluation code, and trained models.
- Abstract(参考訳): 本稿では、LookBench(「ルック」という用語を使って、人々がどのように買い物をするかを反映した検索を行う)、実際のEコマース環境でのファッション画像検索のための、生きた、総体的で挑戦的なベンチマークを示す。
LookBenchには、ライブWebサイトからソースされた最近の製品イメージと、現代的なトレンドとユースケースを反映したAI生成のファッションイメージの両方が含まれている。
各テストサンプルはタイムスタンプされ、定期的にベンチマークを更新し、宣言されたトレーニングカットオフと一致した汚染認識評価を可能にする。
LookBenchは、粒度の細かい属性分類をベースとして、シングルイテムと服レベルの検索を網羅している。
我々の実験によると、LookBenchは強力なベースラインに重大な課題をもたらしており、多くのモデルは60\%$ Recall@1.99ドル以下で達成されている。
当社のプロプライエタリなモデルはLookBench上で最高のパフォーマンスを実現しています。
LookBenchは、新しいテストサンプルと、徐々に難しいタスクバリアントを伴って、半年毎に更新されるように設計されている。
リーダボード、データセット、評価コード、トレーニング済みモデルなどを公開しています。
関連論文リスト
- MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models [39.38477117444303]
HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。
正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。
ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
論文 参考訳(メタデータ) (2023-04-11T17:59:13Z) - GEFF: Improving Any Clothes-Changing Person ReID Model using Gallery
Enrichment with Face Features [11.189236254478057]
CC-ReID(Closes-Changing Re-Identification)問題では、人のクエリサンプルが与えられた場合、その人が異なる服装で現れるラベル付きギャラリーに基づいて正しいアイデンティティを決定することが目的である。
いくつかのモデルは、衣服に依存しない特徴を抽出することで、この問題に対処している。
衣料品関連の機能がデータの主要な機能であることが多いので、我々はギャラリー・エンリッチメントと呼ばれる新しいプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-24T21:41:52Z) - A Strong Baseline for Fashion Retrieval with Person Re-Identification
Models [0.0]
ファッション検索は、画像に含まれるファッションアイテムの正確なマッチングを見つけるのに難しいタスクである。
ファッション検索のためのシンプルなベースラインモデルを導入する。
Street2ShopとDeepFashionのデータセットで詳細な実験を行い、その結果を検証する。
論文 参考訳(メタデータ) (2020-03-09T12:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。