Fugu-MT 論文翻訳(概要): Enhancing Weakly-Supervised Object Detection on Static Images through (Hallucinated) Motion

論文の概要: Enhancing Weakly-Supervised Object Detection on Static Images through (Hallucinated) Motion

arxiv url: http://arxiv.org/abs/2409.09616v1
Date: Sun, 15 Sep 2024 05:32:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 19:58:08.835007
Title: Enhancing Weakly-Supervised Object Detection on Static Images through (Hallucinated) Motion
Title（参考訳）: ゆるやかな物体検出を静的画像上で(ハローシネートされた)動きにより促進する
Authors: Cagri Gungor, Adriana Kovashka,
Abstract要約: 本研究は,動作情報の統合によるWSOD手法の強化手法を提案する。この方法は、静止画像からの幻覚運動を活用して、画像データセットのWSODを改善する。
参考スコア（独自算出の注目度）: 28.49695567630899
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While motion has garnered attention in various tasks, its potential as a modality for weakly-supervised object detection (WSOD) in static images remains unexplored. Our study introduces an approach to enhance WSOD methods by integrating motion information. This method involves leveraging hallucinated motion from static images to improve WSOD on image datasets, utilizing a Siamese network for enhanced representation learning with motion, addressing camera motion through motion normalization, and selectively training images based on object motion. Experimental validation on the COCO and YouTube-BB datasets demonstrates improvements over a state-of-the-art method.
Abstract（参考訳）: 動作は様々なタスクにおいて注目されているが、静止画像における弱教師付き物体検出(WSOD)のモダリティとしての可能性は未解明のままである。本研究は,動作情報の統合によるWSOD手法の強化手法を提案する。本手法は、静止画像からの幻覚的動きを利用して画像データセットのWSODを改善すること、動きによる表現学習の強化、動きの正規化によるカメラモーションの対応、物体の動きに基づく画像の選択的トレーニングを行うためのシームズネットワークを利用する。 COCOとYouTube-BBデータセットに対する実験的検証は、最先端の手法よりも改善されていることを示している。

関連論文リスト

Diffusion-based 3D Hand Motion Recovery with Intuitive Physics [29.784542628690794]
画像に基づく再構成を向上する新しい3Dハンドモーションリカバリフレームワークを提案する。本モデルでは,初期値に条件付された改良された動き推定値の分布を抽出し,改良されたシーケンスを生成する。我々は、キー動作状態とその関連する動作制約を含む手動物体相互作用における貴重な直感的な物理知識を同定する。
論文参考訳（メタデータ） (2025-08-03T16:44:24Z)
TransFlow: Motion Knowledge Transfer from Video Diffusion Models to Video Salient Object Detection [14.635179908525389]
本稿では,事前学習した映像拡散モデルから動きの知識を伝達し,映像の有能な物体検出のためのリアルなトレーニングデータを生成するTransFlowを提案する。提案手法は,複数のベンチマークにまたがる性能向上を実現し,効果的な動作知識の伝達を実証する。
論文参考訳（メタデータ） (2025-07-26T04:30:44Z)
Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。 RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文参考訳（メタデータ） (2025-05-26T13:06:01Z)
Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-18T15:56:46Z)
MONA: Moving Object Detection from Videos Shot by Dynamic Camera [20.190677328673836]
ダイナミックカメラで撮影されたビデオから、ロバストな移動物体の検出とセグメンテーションを行うためのフレームワークであるMONAを紹介する。 MonAは2つの重要なモジュールから構成される: 動的ポイント抽出(Dynamic Points extract)は光学フローを活用し、動的ポイントを識別するための任意のポイントを追跡する。カメラ軌道推定手法LEAP-VOと統合してMONAを検証する。
論文参考訳（メタデータ） (2025-01-22T19:30:28Z)
A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文参考訳（メタデータ） (2024-12-23T08:26:00Z)
Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文参考訳（メタデータ） (2024-06-06T03:37:39Z)
Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。 2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文参考訳（メタデータ） (2024-05-08T02:42:27Z)
Retrieval Robust to Object Motion Blur [54.34823913494456]
本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。ぼやけたオブジェクト検索のための最初の大規模データセットを提示する。提案手法は,新しいぼやけた検索データセット上で,最先端の検索手法より優れている。
論文参考訳（メタデータ） (2024-04-27T23:22:39Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
Data-Driven Stochastic Motion Evaluation and Optimization with Image by Spatially-Aligned Temporal Encoding [8.104557130048407]
本稿では,長動きに対する確率的動き予測法を提案し,その動きが与えられた画像で観測された初期状態からタスクを達成できるように予測する。本手法は空間的に時間的エンコーディングによって画像特徴領域に画像と動きデータをシームレスに統合する。提案手法の有効性は, 同様のSOTA法を用いた様々な実験で実証された。
論文参考訳（メタデータ） (2023-02-10T04:06:00Z)
Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文参考訳（メタデータ） (2022-07-11T07:50:22Z)
Regularity Learning via Explicit Distribution Modeling for Skeletal Video Anomaly Detection [43.004613173363566]
確率的視点からポーズ動作表現を提供するために,新しい動き埋め込み (ME) を提案する。タスク固有の空間時間変換器(STT)を自己教師型ポーズシーケンス再構築のために配置する。 MoPRLは、いくつかの挑戦的なデータセットに対して平均4.7%のAUCの改善によって最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-12-07T11:52:25Z)
Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文参考訳（メタデータ） (2021-04-01T17:44:34Z)
Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文参考訳（メタデータ） (2020-12-16T04:06:02Z)
Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文参考訳（メタデータ） (2020-07-20T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。