論文の概要: Multi-View Crowd Counting With Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2509.21918v1
- Date: Fri, 26 Sep 2025 05:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.218997
- Title: Multi-View Crowd Counting With Self-Supervised Learning
- Title(参考訳): 自己監督型学習による多視点集団の計数
- Authors: Hong Mo, Xiong Zhang, Tengfei Shi, Zhongbo Wu,
- Abstract要約: SSLCounterはMVCのための新しい自己教師型学習フレームワークである。
SSLCounterはシーンの暗黙の表現を学習し、連続した幾何学形状の再構築を可能にする。
実験では、SSLCounterは、トレーニングデータの70%のみを使用して、競争力のあるパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 6.247813434989324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view counting (MVC) methods have attracted significant research attention and stimulated remarkable progress in recent years. Despite their success, most MVC methods have focused on improving performance by following the fully supervised learning (FSL) paradigm, which often requires large amounts of annotated data. In this work, we propose SSLCounter, a novel self-supervised learning (SSL) framework for MVC that leverages neural volumetric rendering to alleviate the reliance on large-scale annotated datasets. SSLCounter learns an implicit representation w.r.t. the scene, enabling the reconstruction of continuous geometry shape and the complex, view-dependent appearance of their 2D projections via differential neural rendering. Owing to its inherent flexibility, the key idea of our method can be seamlessly integrated into exsiting frameworks. Notably, extensive experiments demonstrate that SSLCounter not only demonstrates state-of-the-art performances but also delivers competitive performance with only using 70% proportion of training data, showcasing its superior data efficiency across multiple MVC benchmarks.
- Abstract(参考訳): マルチビューカウント法 (MVC) は近年, 注目され, 顕著な進歩を遂げている。
その成功にもかかわらず、ほとんどのMVCメソッドは、大量の注釈付きデータを必要とするフル教師付き学習(FSL)パラダイムに従えば、パフォーマンスを向上させることに重点を置いている。
本研究では,大規模アノテートデータセットへの依存を軽減するために,ニューラルネットワークのボリュームレンダリングを活用する,MVC用の新しい自己教師型学習(SSL)フレームワークであるSSLCounterを提案する。
SSLCounterはシーンの暗黙の表現(w.r.t.t.)を学習し、連続的な幾何学形状の再構築と、微分ニューラルレンダリングによる2次元投影の複雑なビュー依存の外観を可能にする。
その固有の柔軟性のため、メソッドのキーとなるアイデアは、拡張フレームワークにシームレスに統合することができます。
特に大規模な実験では、SSLCounterが最先端のパフォーマンスを示すだけでなく、トレーニングデータの70%しか使用せず、複数のMVCベンチマークで優れたデータ効率を示している。
関連論文リスト
- Scaling Language-Free Visual Representation Learning [62.31591054289958]
Visual Self-Supervised Learning (SSL) は現在、VQA (Visual Question Answering) のようなマルチモーダル環境で、コントラスト言語-画像事前学習 (CLIP) を過小評価している。
このマルチモーダルギャップは、視覚的なSSLとCLIPモデルが異なるデータでトレーニングされているにもかかわらず、言語監督によって導入されたセマンティクスに起因することが多い。
本稿では、同じMetaCLIPデータ上で、ビジュアルSSLとCLIPモデルの両方をトレーニングし、視覚エンコーダの多様なテストベッドとしてVQAを活用することにより、この問題を考察する。
論文 参考訳(メタデータ) (2025-04-01T17:59:15Z) - Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。
このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。
モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文 参考訳(メタデータ) (2025-01-18T17:43:05Z) - SLRL: Structured Latent Representation Learning for Multi-view Clustering [24.333292079699554]
マルチビュークラスタリング(MVC)は、異なるビュー間の固有の一貫性と相補性を活用して、クラスタリングの結果を改善することを目的としている。
MVCでの広範な研究にもかかわらず、既存のほとんどのメソッドは、主にクラスタリングの有効性を高めるためにビューをまたいだ補完的な情報を活用することに重点を置いています。
本稿では,構造化潜在表現学習に基づくマルチビュークラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T09:43:57Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - MMGL: Multi-Scale Multi-View Global-Local Contrastive learning for
Semi-supervised Cardiac Image Segmentation [18.275478722238123]
医用画像セグメンテーションのためのマルチスケールグローバル・ローカル・コントラスト学習フレームワークを提案する。
MM-WHSデータセットの実験は、半教師付き心筋画像のセグメンテーションにおけるMMGLフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2022-07-05T08:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。