論文の概要: Video Individual Counting With Implicit One-to-Many Matching
- arxiv url: http://arxiv.org/abs/2506.13067v1
- Date: Mon, 16 Jun 2025 03:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.398316
- Title: Video Individual Counting With Implicit One-to-Many Matching
- Title(参考訳): 1対1の無作為なマッチングで個人を数えるビデオ
- Authors: Xuhui Zhu, Jing Xu, Bingjie Wang, Huikang Dai, Hao Lu,
- Abstract要約: Video Individual Countingは、ビデオから歩行者のフラックスを推定することを目的としている。
VICの主な問題は、フレーム間で共存する歩行者を特定する方法である。
暗黙的な1対Many mAtchiNgを持つ単純だが効果的なVICモデルであるOMANを紹介する。
- 参考スコア(独自算出の注目度): 8.80200994828351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Individual Counting (VIC) is a recently introduced task that aims to estimate pedestrian flux from a video. It extends conventional Video Crowd Counting (VCC) beyond the per-frame pedestrian count. In contrast to VCC that only learns to count repeated pedestrian patterns across frames, the key problem of VIC is how to identify co-existent pedestrians between frames, which turns out to be a correspondence problem. Existing VIC approaches, however, mainly follow a one-to-one (O2O) matching strategy where the same pedestrian must be exactly matched between frames, leading to sensitivity to appearance variations or missing detections. In this work, we show that the O2O matching could be relaxed to a one-to-many (O2M) matching problem, which better fits the problem nature of VIC and can leverage the social grouping behavior of walking pedestrians. We therefore introduce OMAN, a simple but effective VIC model with implicit One-to-Many mAtchiNg, featuring an implicit context generator and a one-to-many pairwise matcher. Experiments on the SenseCrowd and CroHD benchmarks show that OMAN achieves the state-of-the-art performance. Code is available at \href{https://github.com/tiny-smart/OMAN}{OMAN}.
- Abstract(参考訳): ビデオ個別カウント(VIC)は、ビデオから歩行者のフラックスを推定することを目的とした、最近導入されたタスクである。
従来のビデオ群カウント(VCC)は、フレーム当たりの歩行者数を超えて拡張されている。
フレーム間で繰り返される歩行者パターンを数えることしか学ばないVCCとは対照的に、VICの大きな問題は、フレーム間で共存する歩行者を特定する方法にある。
しかしながら、既存のVICアプローチは主に、1対1(O2O)マッチング戦略に従っており、同じ歩行者をフレーム間で正確にマッチングする必要があるため、外観の変化や検出の欠如に敏感になる。
本研究は,歩行歩行者の社会的グループ化行動に適合する1対多(O2M)マッチング問題に対して,O2Oマッチングが緩和可能であることを示す。
そこで我々は,暗黙的一対一のmAtchiNgを持つ単純だが効果的なVICモデルであるOMANを紹介し,暗黙的文脈生成器と一対一のペアワイドマッチング器を備える。
SenseCrowdとCroHDベンチマークの実験は、OMANが最先端のパフォーマンスを達成することを示している。
コードは \href{https://github.com/tiny-smart/OMAN}{OMAN} で公開されている。
関連論文リスト
- Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes [3.2416801263793285]
アノテーションを使わずに自己管理型多視点人物アソシエーションアプローチであるSelf-MVAを提案する。
具体的には,エンコーダ・デコーダモデルと自己教師型プレテキストタスクからなる自己教師型学習フレームワークを提案する。
提案手法は、既存の教師なしおよび教師なしのアプローチを超越して、最先端の成果を達成する。
論文 参考訳(メタデータ) (2025-03-17T21:48:56Z) - Multi-Pair Temporal Sentence Grounding via Multi-Thread Knowledge Transfer Network [57.72095897427665]
時間文グラウンドディング(TSG)は、ビデオ中のクエリ関連セグメントを見つけることを目的としている。
従来のメソッドは、異なるペアを一緒にトレーニングできないシングルスレッドフレームワークに従っていた。
我々はこれらのペアを協調訓練することを目的としたMulti-Pair TSGを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:50:11Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - Robust Multi-Object Tracking by Marginal Inference [92.48078680697311]
ビデオにおける多目的追跡は、隣接するフレーム内のオブジェクト間の1対1の割り当てに関する根本的な問題を解決する必要がある。
本稿では,各オブジェクトの限界確率をリアルタイムに計算する効率的な手法を提案する。
MOT17とMOT20ベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-08-07T14:04:45Z) - CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person
Search [54.106662998673514]
本稿では,コンテキストガイドとアンペア支援(CGUA)を弱教師付き人物検索フレームワークとして導入する。
具体的には、クラスタリングプロセスにおけるコンテキスト情報を活用する新しいコンテキストガイドクラスタ(CGC)アルゴリズムを提案する。
本手法は,より多様なラベル付きデータを活用することにより,最先端の教師付き手法に匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T13:57:30Z) - DR.VIC: Decomposition and Reasoning for Video Individual Counting [93.12166351940242]
我々は、新しい視点から歩行者計数を行う、ビデオ個別計数(VIC)を提案する。
本研究は,MOT(Multiple Object Tracking)技術に頼らず,全歩行者を第1フレームに存在する初期歩行者と第2フレームに別個の身元を持つ新歩行者に分解することで,その問題を解決することを提案する。
終端分解・推論ネットワーク (DRNet) は, 初期歩行者数を密度推定法で予測し, 新歩行者数を最適な移動量で推定するように設計されている。
論文 参考訳(メタデータ) (2022-03-23T11:24:44Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。