Fugu-MT 論文翻訳(概要): Open-World Object Counting in Videos

論文の概要: Open-World Object Counting in Videos

arxiv url: http://arxiv.org/abs/2506.15368v1
Date: Wed, 18 Jun 2025 11:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.640687
Title: Open-World Object Counting in Videos
Title（参考訳）: ビデオにおけるオープンワールドオブジェクトカウント
Authors: Niki Amini-Naieni, Andrew Zisserman,
Abstract要約: 本稿では,ビデオにおけるオープンワールドオブジェクトカウントの新たな課題を紹介する。目的は、ビデオ内のターゲットオブジェクトのすべてのユニークなインスタンスを列挙することである。このタスクのために、モデルであるCountVidを紹介します。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new task of open-world object counting in videos: given a text description, or an image example, that specifies the target object, the objective is to enumerate all the unique instances of the target objects in the video. This task is especially challenging in crowded scenes with occlusions and similar objects, where avoiding double counting and identifying reappearances is crucial. To this end, we make the following contributions: we introduce a model, CountVid, for this task. It leverages an image-based counting model, and a promptable video segmentation and tracking model to enable automated, open-world object counting across video frames. To evaluate its performance, we introduce VideoCount, a new dataset for our novel task built from the TAO and MOT20 tracking datasets, as well as from videos of penguins and metal alloy crystallization captured by x-rays. Using this dataset, we demonstrate that CountVid provides accurate object counts, and significantly outperforms strong baselines. The VideoCount dataset, the CountVid model, and all the code are available at https://github.com/niki-amini-naieni/CountVid/.
Abstract（参考訳）: 対象物を指定するテキスト記述や画像例が与えられた場合、対象物のユニークなインスタンスをすべて列挙することが目的である。このタスクは、オクルージョンや類似のオブジェクトが混在するシーンにおいて特に困難であり、二重カウントや再出現の特定が不可欠である。この目的のために、我々は以下の貢献をしている: このタスクのためにモデルであるCountVidを導入する。画像ベースのカウントモデルと、プロンプト可能なビデオセグメンテーションと追跡モデルを活用して、ビデオフレーム全体にわたって、自動化されたオープンワールドオブジェクトカウントを可能にする。その性能を評価するために,TAOとMOT20の追跡データセットとペンギンのビデオと,X線で捉えた金属合金結晶化データから構築した新しいタスクのための新しいデータセットであるVideoCountを紹介した。このデータセットを用いて、CountVidが正確なオブジェクト数を提供し、強いベースラインを大幅に上回ることを示す。 VideoCountデータセット、CountVidモデル、およびすべてのコードはhttps://github.com/niki-amini-naieni/CountVid/で利用可能である。

関連論文リスト

Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文参考訳（メタデータ） (2025-07-25T18:11:23Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。 OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文参考訳（メタデータ） (2024-07-24T08:22:49Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
A Density-Guided Temporal Attention Transformer for Indiscernible Object Counting in Underwater Video [27.329015161325962]
周囲に混在する対象の数を数えることを目的とした、識別不能な対象数カウントは、課題となっている。本稿では,35の高精細ビデオを含むYoutubeFish-35という大規模データセットを提案する。統合されたフレームワークにおいて、時間領域に沿って密度と回帰の分岐を結合した新しい強力なベースラインであるTransVidCountを提案する。
論文参考訳（メタデータ） (2024-03-06T04:54:00Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Uncertainty Aware Active Learning for Reconfiguration of Pre-trained Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-22T17:14:10Z)
VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文参考訳（メタデータ） (2023-03-21T17:51:23Z)
VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文参考訳（メタデータ） (2021-01-16T23:07:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。