論文の概要: A Density-Guided Temporal Attention Transformer for Indiscernible Object
Counting in Underwater Video
- arxiv url: http://arxiv.org/abs/2403.03461v1
- Date: Wed, 6 Mar 2024 04:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:16:57.199044
- Title: A Density-Guided Temporal Attention Transformer for Indiscernible Object
Counting in Underwater Video
- Title(参考訳): 水中映像における識別不能物体計数のための密度誘導時空注意トランス
- Authors: Cheng-Yen Yang, Hsiang-Wei Huang, Zhongyu Jiang, Hao Wang, Farron
Wallace, Jenq-Neng Hwang
- Abstract要約: 周囲に混在する対象の数を数えることを目的とした、識別不能な対象数カウントは、課題となっている。
本稿では,35の高精細ビデオを含むYoutubeFish-35という大規模データセットを提案する。
統合されたフレームワークにおいて、時間領域に沿って密度と回帰の分岐を結合した新しい強力なベースラインであるTransVidCountを提案する。
- 参考スコア(独自算出の注目度): 27.329015161325962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense object counting or crowd counting has come a long way thanks to the
recent development in the vision community. However, indiscernible object
counting, which aims to count the number of targets that are blended with
respect to their surroundings, has been a challenge. Image-based object
counting datasets have been the mainstream of the current publicly available
datasets. Therefore, we propose a large-scale dataset called YoutubeFish-35,
which contains a total of 35 sequences of high-definition videos with high
frame-per-second and more than 150,000 annotated center points across a
selected variety of scenes. For benchmarking purposes, we select three
mainstream methods for dense object counting and carefully evaluate them on the
newly collected dataset. We propose TransVidCount, a new strong baseline that
combines density and regression branches along the temporal domain in a unified
framework and can effectively tackle indiscernible object counting with
state-of-the-art performance on YoutubeFish-35 dataset.
- Abstract(参考訳): 視覚コミュニティの最近の発展のおかげで、複雑なオブジェクトのカウントや群衆のカウントは長い道のりを歩んでいる。
しかし, 周囲に混在する対象の数を数えることを目的とした, 認識不能な対象数カウントは, 課題となっている。
イメージベースのオブジェクトカウントデータセットは、現在公開されているデータセットの主流となっている。
そこで,本研究では,高フレーム/秒の高精細ビデオ35列と,選択したシーンに15万点以上のアノテートされた中心点を含む大規模データセットYoutubeFish-35を提案する。
ベンチマークのために、高密度オブジェクトカウントのための3つの主流手法を選択し、新たに収集したデータセット上でそれらを慎重に評価する。
統一されたフレームワークで時間領域に沿って密度と回帰分枝を結合し、youtubefish-35データセットの最先端のパフォーマンスと識別不能なオブジェクトカウントに効果的に取り組むことのできる、新しい強力なベースラインであるtransvidcountを提案する。
関連論文リスト
- Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Indiscernible Object Counting in Underwater Scenes [91.86044762367945]
認識不能なオブジェクトのカウントは、その環境に対してブレンドされたオブジェクトをカウントすることである。
本稿では,5,637個の高解像度画像と659,024個の注釈付き中心点を含む大規模データセットIOCfish5Kを提案する。
論文 参考訳(メタデータ) (2023-04-23T15:09:02Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - Counting from Sky: A Large-scale Dataset for Remote Sensing Object
Counting and A Benchmark Method [52.182698295053264]
リモートセンシング画像から高密度物体をカウントすることに興味がある。自然界における物体のカウントと比較すると、このタスクは、大規模変動、複雑な乱れ背景、配向仲裁といった要因において困難である。
これらの課題に対処するために,我々はまず,4つの重要な地理的対象を含むリモートセンシング画像を用いた大規模オブジェクトカウントデータセットを構築した。
次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文 参考訳(メタデータ) (2020-08-28T03:47:49Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z) - Counting dense objects in remote sensing images [52.182698295053264]
特定の画像から関心のあるオブジェクトの数を推定するのは、難しいが重要な作業である。
本稿では,リモートセンシング画像から高密度物体を数えることに興味がある。
これらの課題に対処するために,我々はまず,リモートセンシング画像に基づく大規模オブジェクトカウントデータセットを構築した。
次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文 参考訳(メタデータ) (2020-02-14T09:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。