論文の概要: Exploring Visual Embedding Spaces Induced by Vision Transformers for Online Auto Parts Marketplaces
- arxiv url: http://arxiv.org/abs/2502.05756v1
- Date: Sun, 09 Feb 2025 03:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:11.102244
- Title: Exploring Visual Embedding Spaces Induced by Vision Transformers for Online Auto Parts Marketplaces
- Title(参考訳): オンライン自動車部品マーケットプレイスにおける視覚変換器による視覚埋め込み空間の探索
- Authors: Cameron Armijo, Pablo Rivas,
- Abstract要約: 本研究では,オンラインマーケットプレースから得られる自動車部品の画像の視覚的埋め込み生成におけるビジョントランスフォーマーモデルの有用性について検討した。
単一モダリティデータにのみ焦点をあてることで、不正な活動を示すパターンを検出するViTの可能性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study examines the capabilities of the Vision Transformer (ViT) model in generating visual embeddings for images of auto parts sourced from online marketplaces, such as Craigslist and OfferUp. By focusing exclusively on single-modality data, the analysis evaluates ViT's potential for detecting patterns indicative of illicit activities. The workflow involves extracting high-dimensional embeddings from images, applying dimensionality reduction techniques like Uniform Manifold Approximation and Projection (UMAP) to visualize the embedding space, and using K-Means clustering to categorize similar items. Representative posts nearest to each cluster centroid provide insights into the composition and characteristics of the clusters. While the results highlight the strengths of ViT in isolating visual patterns, challenges such as overlapping clusters and outliers underscore the limitations of single-modal approaches in this domain. This work contributes to understanding the role of Vision Transformers in analyzing online marketplaces and offers a foundation for future advancements in detecting fraudulent or illegal activities.
- Abstract(参考訳): 本研究では、CraigslistやOfferUpといったオンラインマーケットプレースから派生した自動車部品の画像の視覚的埋め込み生成における視覚変換器(ViT)モデルの有用性について検討する。
単一モダリティデータにのみ焦点をあてることで、不正な活動を示すパターンを検出するViTの可能性を評価する。
このワークフローは、画像から高次元の埋め込みを抽出し、一様多様体近似や投影(UMAP)のような次元削減技術を適用して埋め込み空間を視覚化し、K-Meansクラスタリングを使用して類似のアイテムを分類する。
各クラスタに最も近い代表的ポストは、クラスタの構成と特性に関する洞察を提供する。
結果は、視覚的パターンの分離におけるViTの強みを浮き彫りにする一方で、クラスタの重複やアウトリーチといった課題は、この領域における単一モーダルアプローチの限界を浮き彫りにしている。
この研究は、オンラインマーケットプレースの分析におけるビジョントランスフォーマーの役割の理解に寄与し、不正行為や違法行為の検出における今後の進歩の基盤を提供する。
関連論文リスト
- ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - DimVis: Interpreting Visual Clusters in Dimensionality Reduction With Explainable Boosting Machine [3.2748787252933442]
DimVisは、DRプロジェクションの解釈アシスタントとして、教師付きExplainable Boosting Machine(EBM)モデルを使用するツールである。
本ツールは,視覚的クラスタにおける特徴関連性の解釈を提供することにより,高次元データ解析を容易にする。
論文 参考訳(メタデータ) (2024-02-10T04:50:36Z) - Vision Transformers Need Registers [26.63912173005165]
教師付きと自己監督型の両方のViTネットワークの特徴マップのアーティファクトを特定し,特徴付けする。
このソリューションは、教師付きモデルと自己教師型モデルの両方で完全にその問題を解決する。
論文 参考訳(メタデータ) (2023-09-28T16:45:46Z) - Spatial Transform Decoupling for Oriented Object Detection [43.44237345360947]
ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めた。
本稿では,空間変換デカップリング(Spatial Transform Decoupling,STD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:36:23Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Transforming Feature Space to Interpret Machine Learning Models [91.62936410696409]
この貢献は、特徴空間変換のレンズを通して機械学習モデルを解釈する新しいアプローチを提案する。
非条件的および条件付きポストホック診断ツールの拡張に使用できる。
提案手法の可能性を実証するために,46特徴のリモートセンシング土地被覆分類の事例研究を行った。
論文 参考訳(メタデータ) (2021-04-09T10:48:11Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。