論文の概要: Enhancing Weakly-Supervised Object Detection on Static Images through (Hallucinated) Motion
- arxiv url: http://arxiv.org/abs/2409.09616v1
- Date: Sun, 15 Sep 2024 05:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:58:08.835007
- Title: Enhancing Weakly-Supervised Object Detection on Static Images through (Hallucinated) Motion
- Title(参考訳): ゆるやかな物体検出を静的画像上で(ハローシネートされた)動きにより促進する
- Authors: Cagri Gungor, Adriana Kovashka,
- Abstract要約: 本研究は,動作情報の統合によるWSOD手法の強化手法を提案する。
この方法は、静止画像からの幻覚運動を活用して、画像データセットのWSODを改善する。
- 参考スコア(独自算出の注目度): 28.49695567630899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While motion has garnered attention in various tasks, its potential as a modality for weakly-supervised object detection (WSOD) in static images remains unexplored. Our study introduces an approach to enhance WSOD methods by integrating motion information. This method involves leveraging hallucinated motion from static images to improve WSOD on image datasets, utilizing a Siamese network for enhanced representation learning with motion, addressing camera motion through motion normalization, and selectively training images based on object motion. Experimental validation on the COCO and YouTube-BB datasets demonstrates improvements over a state-of-the-art method.
- Abstract(参考訳): 動作は様々なタスクにおいて注目されているが、静止画像における弱教師付き物体検出(WSOD)のモダリティとしての可能性は未解明のままである。
本研究は,動作情報の統合によるWSOD手法の強化手法を提案する。
本手法は、静止画像からの幻覚的動きを利用して画像データセットのWSODを改善すること、動きによる表現学習の強化、動きの正規化によるカメラモーションの対応、物体の動きに基づく画像の選択的トレーニングを行うためのシームズネットワークを利用する。
COCOとYouTube-BBデータセットに対する実験的検証は、最先端の手法よりも改善されていることを示している。
関連論文リスト
- Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。
同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文 参考訳(メタデータ) (2024-06-06T03:37:39Z) - Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-05-08T02:42:27Z) - Retrieval Robust to Object Motion Blur [54.34823913494456]
本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。
ぼやけたオブジェクト検索のための最初の大規模データセットを提示する。
提案手法は,新しいぼやけた検索データセット上で,最先端の検索手法より優れている。
論文 参考訳(メタデータ) (2024-04-27T23:22:39Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Data-Driven Stochastic Motion Evaluation and Optimization with Image by
Spatially-Aligned Temporal Encoding [8.104557130048407]
本稿では,長動きに対する確率的動き予測法を提案し,その動きが与えられた画像で観測された初期状態からタスクを達成できるように予測する。
本手法は空間的に時間的エンコーディングによって画像特徴領域に画像と動きデータをシームレスに統合する。
提案手法の有効性は, 同様のSOTA法を用いた様々な実験で実証された。
論文 参考訳(メタデータ) (2023-02-10T04:06:00Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Regularity Learning via Explicit Distribution Modeling for Skeletal
Video Anomaly Detection [43.004613173363566]
確率的視点からポーズ動作表現を提供するために,新しい動き埋め込み (ME) を提案する。
タスク固有の空間時間変換器(STT)を自己教師型ポーズシーケンス再構築のために配置する。
MoPRLは、いくつかの挑戦的なデータセットに対して平均4.7%のAUCの改善によって最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-07T11:52:25Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。