論文の概要: Multimodal Data Curation via Object Detection and Filter Ensembles
- arxiv url: http://arxiv.org/abs/2401.12225v1
- Date: Fri, 5 Jan 2024 08:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-28 15:41:27.520453
- Title: Multimodal Data Curation via Object Detection and Filter Ensembles
- Title(参考訳): オブジェクト検出とフィルタアンサンブルによるマルチモーダルデータキュレーション
- Authors: Tzu-Heng Huang, Changho Shin, Sui Jiet Tay, Dyah Adila, Frederic Sala
- Abstract要約: 我々は,2023年のDataCompコンペティション・フィルタ・トラックのエントリーに使用したマルチモーダルデータの計算手法を提案する。
本手法は,オブジェクト検出と弱い監視に基づくアンサンブルを組み合わせた手法である。
- 参考スコア(独自算出の注目度): 12.875261842035052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an approach for curating multimodal data that we used for our
entry in the 2023 DataComp competition filtering track. Our technique combines
object detection and weak supervision-based ensembling. In the first of two
steps in our approach, we employ an out-of-the-box zero-shot object detection
model to extract granular information and produce a variety of filter designs.
In the second step, we employ weak supervision to ensemble filtering rules.
This approach results in a 4% performance improvement when compared to the
best-performing baseline, producing the top-ranking position in the small scale
track at the time of writing. Furthermore, in the medium scale track, we
achieve a noteworthy 4.2% improvement over the baseline by simply ensembling
existing baselines with weak supervision.
- Abstract(参考訳): 我々は,2023年のDataCompコンペティション・フィルタ・トラックのエントリーに使用したマルチモーダルデータの計算手法を提案する。
オブジェクト検出と弱い監視に基づくアンサンブルを組み合わせた手法を提案する。
提案手法の2つのステップのうちの1つとして,ゼロショット物体検出モデルを用いて,粒状情報を抽出し,様々なフィルタ設計を行う。
第2のステップでは、フィルタリングルールのアンサンブルに弱い監督を採用する。
提案手法は, 最高性能のベースラインと比較して4%の性能向上を実現し, 書き込み時の小型トラックにおける上位位置を導出する。
さらに,中規模トラックでは,既存のベースラインを弱監督下に組み込むことで,ベースラインに対する注目すべき4.2%の改善を実現している。
関連論文リスト
- The Solution for Single Object Tracking Task of Perception Test Challenge 2024 [44.83373635024292]
本報告では,ビデオシーケンスを通して特定のオブジェクトを追跡することを目的とした,Single Object Tracking (SOT) を提案する。
推論遅延を追加することなく、モデルパラメータの小さなサブセットを微調整するLoRAT法を用いる。
大規模なLaSOTデータセットとGOT-10kデータセットを使用してモデルをトレーニングし、堅牢なパフォーマンスの基盤を提供します。
アルファリファイン法では期待された結果が得られなかったが,本手法は0.813のスコアを達成し,競争において第1位を確保した。
論文 参考訳(メタデータ) (2024-10-19T06:35:13Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Beyond Kalman Filters: Deep Learning-Based Filters for Improved Object
Tracking [3.5693768338940304]
本稿では,追跡検出システムのための2つの革新的なデータ駆動フィルタリング手法を提案する。
最初の方法は、トレーニング可能な運動モデルを持つベイズフィルタを用いて、物体の将来の位置を予測する。
第2の方法は、エンドツーエンドのトレーニング可能なフィルタで、検出エラーの修正を学習することでさらに前進する。
論文 参考訳(メタデータ) (2024-02-15T10:47:44Z) - The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data
Filtering [23.68112988933411]
本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。
我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。
提案手法は,3つのタスクの平均的なパフォーマンスに対して4%以上,ImageNetでは2%以上,DataComp論文のベストメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-09-27T19:10:43Z) - Meta-Learning for Unsupervised Outlier Detection with Optimal Transport [4.035753155957698]
そこで本稿では,従来のデータセットからのメタラーニングに基づく異常検出の自動化手法を提案する。
特に最適なトランスポートを活用して、最も類似した分布を持つデータセットを見つけ、そのデータ分散に最も適することが証明された外れ値検出技術を適用します。
論文 参考訳(メタデータ) (2022-11-01T10:36:48Z) - Deep Convolutional Correlation Iterative Particle Filter for Visual
Tracking [1.1531505895603305]
本研究では,反復的粒子フィルタ,深部畳み込みニューラルネットワーク,相関フィルタを統合した視覚追跡のための新しいフレームワークを提案する。
我々は, K-平均クラスタリングを適用して, 繰り返し後の粒子の可能性を評価する新しい手法を採用した。
2つの異なるベンチマークデータセットの実験結果は、トラッカーが最先端の手法に対して好適に動作することを示している。
論文 参考訳(メタデータ) (2021-07-07T02:44:43Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Cascaded Regression Tracking: Towards Online Hard Distractor
Discrimination [202.2562153608092]
本稿では,2段階の逐次回帰トラッカーを提案する。
第1段階では, 容易に同定可能な負の候補を抽出する。
第2段階では、残留するあいまいな硬質試料をダブルチェックするために、離散サンプリングに基づくリッジ回帰を設計する。
論文 参考訳(メタデータ) (2020-06-18T07:48:01Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。