Fugu-MT 論文翻訳(概要): VLMine: Long-Tail Data Mining with Vision Language Models

論文の概要: VLMine: Long-Tail Data Mining with Vision Language Models

arxiv url: http://arxiv.org/abs/2409.15486v1
Date: Mon, 23 Sep 2024 19:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 12:57:29.202428
Title: VLMine: Long-Tail Data Mining with Vision Language Models
Title（参考訳）: VLMine:ビジョン言語モデルによる長距離データマイニング
Authors: Mao Ye, Gregory P. Meyer, Zaiwei Zhang, Dennis Park, Siva Karthik Mustikovela, Yuning Chai, Eric M Wolff,
Abstract要約: この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。私たちの実験は、ベースライン技術よりも大きな改善(10%から50%)を示しています。
参考スコア（独自算出の注目度）: 18.412533708652102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring robust performance on long-tail examples is an important problem for many real-world applications of machine learning, such as autonomous driving. This work focuses on the problem of identifying rare examples within a corpus of unlabeled data. We propose a simple and scalable data mining approach that leverages the knowledge contained within a large vision language model (VLM). Our approach utilizes a VLM to summarize the content of an image into a set of keywords, and we identify rare examples based on keyword frequency. We find that the VLM offers a distinct signal for identifying long-tail examples when compared to conventional methods based on model uncertainty. Therefore, we propose a simple and general approach for integrating signals from multiple mining algorithms. We evaluate the proposed method on two diverse tasks: 2D image classification, in which inter-class variation is the primary source of data diversity, and on 3D object detection, where intra-class variation is the main concern. Furthermore, through the detection task, we demonstrate that the knowledge extracted from 2D images is transferable to the 3D domain. Our experiments consistently show large improvements (between 10\% and 50\%) over the baseline techniques on several representative benchmarks: ImageNet-LT, Places-LT, and the Waymo Open Dataset.
Abstract（参考訳）: 長い尾の例で堅牢なパフォーマンスを確保することは、自律運転のような機械学習の現実の多くのアプリケーションにとって重要な問題である。この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。提案手法では,VLMを用いて画像の内容をキーワードの集合に要約し,キーワード頻度に基づいて稀な例を同定する。モデル不確実性に基づく従来の手法と比較して,VLMは長い尾のサンプルを識別するための信号を提供する。そこで本研究では,複数のマイニングアルゴリズムからの信号を統合するための,シンプルで汎用的なアプローチを提案する。提案手法は,クラス間変動がデータ多様性の主源となる2次元画像分類と,クラス内変動が主な関心事である3次元物体検出の2つの課題について評価する。さらに,検出タスクを通じて,2次元画像から抽出した知識が3次元領域に伝達可能であることを示す。私たちの実験は、ImageNet-LT、Places-LT、Waymo Open Datasetといったいくつかの代表的なベンチマークにおいて、ベースライン技術よりも大きな改善(10%と50%)を示しています。

関連論文リスト

Multilinear subspace learning for person re-identification based fusion of high order tensor features [2.03240755905453]
PRe-IDは、カメラネットワークで既に検出された標的個人を特定し追跡することを目的としている。この目的のために、CNN(Conal Neural Networks)とLOMO(Local Maximal Occurrence)という2つの強力な特徴が多次元データに基づいてモデル化されている。新しいテンソル融合スキームを導入し、これら2種類の特徴を1つのテンソルに活用する。
論文参考訳（メタデータ） (2025-05-09T23:39:27Z)
Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation [14.651682743504024]
Vision Foundation Models (VFM) は、画像分類、画像分割、オブジェクトのローカライゼーションなど、多くの下流視覚タスクにおいて事実上の選択肢となっている。本稿では,ラベル付きソースからラベル付きターゲットデータへの適応のためのVFMの有用性を,LiDARに基づく3Dセマンティックセマンティックセマンティックセグメンテーションの課題に適用する。提案手法は,2D-3D(画像と点雲)のペアデータを消費し,ラベル付きソースとラベルなしターゲットデータを組み合わせた3Dバックボーンのトレーニングを行うために,VFMのロバストな(クロスドメイン)機能に依存する。
論文参考訳（メタデータ） (2025-04-19T08:53:54Z)
A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文参考訳（メタデータ） (2025-03-10T21:09:02Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。 CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文参考訳（メタデータ） (2024-04-17T21:47:45Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文参考訳（メタデータ） (2024-01-06T07:30:41Z)
Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文参考訳（メタデータ） (2023-02-08T07:11:36Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文参考訳（メタデータ） (2022-04-22T14:38:40Z)
Multi-Perspective Anomaly Detection [3.3511723893430476]
我々は,ディープサポートベクトルデータ記述アルゴリズムを構築し,マルチパースペクティブな異常検出に対処する。我々は、少ない一級データを扱うために、デノナイジングプロセスで異なる拡張手法を採用する。 2つの異なる視点からの画像を用いて新しいダイスデータセットのアプローチを評価し、標準MNISTデータセットのベンチマークを行った。
論文参考訳（メタデータ） (2021-05-20T17:07:36Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。