論文の概要: Leveraging OpenFlamingo for Multimodal Embedding Analysis of C2C Car Parts Data
- arxiv url: http://arxiv.org/abs/2503.17408v1
- Date: Thu, 20 Mar 2025 19:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:24.767752
- Title: Leveraging OpenFlamingo for Multimodal Embedding Analysis of C2C Car Parts Data
- Title(参考訳): C2C部品データのマルチモーダル埋め込み解析におけるOpenFlamingoの利用
- Authors: Maisha Binte Rashid, Pablo Rivas,
- Abstract要約: われわれは2つのプラットフォーム、OfferUpとCraigslistからデータを収集した。
OpenFlamingoモデルは、各投稿のテキストと画像の埋め込みを抽出するために使用された。
ほとんどのクラスタにはパターンが含まれていることが分かりましたが、いくつかのクラスタは内部パターンを示していません。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we aim to investigate the capabilities of multimodal machine learning models, particularly the OpenFlamingo model, in processing a large-scale dataset of consumer-to-consumer (C2C) online posts related to car parts. We have collected data from two platforms, OfferUp and Craigslist, resulting in a dataset of over 1.2 million posts with their corresponding images. The OpenFlamingo model was used to extract embeddings for the text and image of each post. We used $k$-means clustering on the joint embeddings to identify underlying patterns and commonalities among the posts. We have found that most clusters contain a pattern, but some clusters showed no internal patterns. The results provide insight into the fact that OpenFlamingo can be used for finding patterns in large datasets but needs some modification in the architecture according to the dataset.
- Abstract(参考訳): 本稿では,自動車部品に関連するC2Cオンラインポストの大規模データセット処理におけるマルチモーダル機械学習モデル,特にOpenFlamingoモデルの有用性を検討することを目的とする。
われわれは2つのプラットフォーム、OfferUpとCraigslistからデータを収集した。
OpenFlamingoモデルは、各投稿のテキストと画像の埋め込みを抽出するために使用された。
私たちは、共同埋め込みに$k$-meansクラスタリングを使用して、投稿の根底にあるパターンと共通点を特定しました。
ほとんどのクラスタにはパターンが含まれていることが分かりましたが、いくつかのクラスタは内部パターンを示していません。
結果は、OpenFlamingoが大規模なデータセットのパターンを見つけるのに使えるが、データセットに従ってアーキテクチャの変更が必要であるという事実を洞察する。
関連論文リスト
- Customized Multiple Clustering via Multi-Modal Subspace Proxy Learning [8.447067012487866]
我々は、マルチモーダルなサブスペースプロキシ学習フレームワークを組み込んだ、新しいエンドツーエンドのマルチクラスタリングアプローチであるMulti-Subを紹介する。
我々の手法は、視覚的多重クラスタリングタスクにおいて、幅広いデータセットの集合において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-06T15:14:27Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Transfer Learning with Point Transformers [3.678615604632945]
Point Transformerは、Point Cloudデータの分類、セグメンテーション、検出のための最先端モデルである。
モデルNet10データセットに基づくこれらの注目ネットワークの分類性能について検討し、3次元MNISTデータセットを微調整後に分類するためにトレーニングされたモデルを用いた。
論文 参考訳(メタデータ) (2024-04-01T01:23:58Z) - Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。
我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。
10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:08:30Z) - Contrastive Continual Multi-view Clustering with Filtered Structural
Fusion [57.193645780552565]
ビューが事前に収集されるアプリケーションでは、マルチビュークラスタリングが成功します。
データビューがシーケンシャルに収集されるシナリオ、すなわちリアルタイムデータを見落としている。
いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。
フィルタ構造融合を用いたコントラスト連続多視点クラスタリングを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:18:29Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Discovering Bugs in Vision Models using Off-the-shelf Image Generation
and Captioning [25.88974494276895]
この研究は、オフザシェルフ、大規模、画像からテキストへ、そしてテキストから画像へのモデルがどのように活用され、自動的に失敗を見つけるかを示す。
本質的には、条件付きテキスト・ツー・イメージ生成モデルを使用して、大量の合成的かつ現実的な入力を生成する。
論文 参考訳(メタデータ) (2022-08-18T13:49:10Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。