論文の概要: Relation-Aware Distribution Representation Network for Person Clustering
with Multiple Modalities
- arxiv url: http://arxiv.org/abs/2308.00588v1
- Date: Tue, 1 Aug 2023 15:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:54:49.218730
- Title: Relation-Aware Distribution Representation Network for Person Clustering
with Multiple Modalities
- Title(参考訳): 複数のモダリティを持つ人物クラスタリングのための関係認識分布表現ネットワーク
- Authors: Kaijian Liu, Shixiang Tang, Ziyue Li, Zhishuai Li, Lei Bai, Feng Zhu,
Rui Zhao
- Abstract要約: 顔、体、声を含む多モードの手がかりでクラスタリングする人は、様々なタスクに欠かせない。
マルチモーダルな手がかりの分布表現を生成するためのリレーショナル・アウェア分布表現ネットワーク(RAD-Net)を提案する。
提案手法は,ビデオパーソンクラスタリングデータセットにおけるFスコアの+6%と+8.2%を大幅に改善する。
- 参考スコア(独自算出の注目度): 17.569843539515734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person clustering with multi-modal clues, including faces, bodies, and
voices, is critical for various tasks, such as movie parsing and identity-based
movie editing. Related methods such as multi-view clustering mainly project
multi-modal features into a joint feature space. However, multi-modal clue
features are usually rather weakly correlated due to the semantic gap from the
modality-specific uniqueness. As a result, these methods are not suitable for
person clustering. In this paper, we propose a Relation-Aware Distribution
representation Network (RAD-Net) to generate a distribution representation for
multi-modal clues. The distribution representation of a clue is a vector
consisting of the relation between this clue and all other clues from all
modalities, thus being modality agnostic and good for person clustering.
Accordingly, we introduce a graph-based method to construct distribution
representation and employ a cyclic update policy to refine distribution
representation progressively. Our method achieves substantial improvements of
+6% and +8.2% in F-score on the Video Person-Clustering Dataset (VPCD) and
VoxCeleb2 multi-view clustering dataset, respectively. Codes will be released
publicly upon acceptance.
- Abstract(参考訳): 顔、体、声を含むマルチモーダルな手がかりによる人的クラスタリングは、映画解析やアイデンティティベースの映画編集など、さまざまなタスクに不可欠である。
マルチビュークラスタリングのような関連する手法は、主にマルチモーダル機能をジョイント機能空間に投影する。
しかし、マルチモーダルな手掛かりの特徴は通常、モダリティ特有の一意性とのセマンティックギャップのために弱い相関関係にある。
結果として、これらの手法は人的クラスタリングには適さない。
本稿では,複数モーダル手がかりの分布表現を生成するための関係認識分布表現ネットワーク(RAD-Net)を提案する。
手がかりの分布表現は、この手がかりと全てのモダリティからの他のすべての手がかりの関係からなるベクトルであり、モダリティ非依存であり、人的クラスタリングに適している。
そこで我々は,分布表現を構成するグラフベースの手法を導入し,周期的な更新ポリシーを用いて分布表現を段階的に洗練する。
本稿では,ビデオPerson-Clustering Dataset(VPCD)とVoxCeleb2マルチビュークラスタリングデータセットにおいて,Fスコアの+6%と+8.2%を大幅に改善する。
コードは受理次第公開される予定だ。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - One-step Multi-view Clustering with Diverse Representation [47.41455937479201]
本稿では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
そこで本研究では,効率の良い最適化アルゴリズムを開発し,その解法について述べる。
論文 参考訳(メタデータ) (2023-06-08T02:52:24Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - MORI-RAN: Multi-view Robust Representation Learning via Hybrid
Contrastive Fusion [4.36488705757229]
多視点表現学習は、クラスタリングや分類といった多くの多視点タスクに不可欠である。
ラベルのないデータから堅牢なビュー-共通表現を抽出するハイブリッドコントラスト融合アルゴリズムを提案する。
実験の結果,提案手法は実世界の4つのデータセットにおいて,12の競合的マルチビュー手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-26T09:58:37Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Face, Body, Voice: Video Person-Clustering with Multiple Modalities [85.0282742801264]
それまでの方法は、顔クラスタリングのより狭いタスクに焦点を当てていた。
現在のデータセットのほとんどは、人物クラスタリングではなく、顔クラスタリングのタスクのみを評価している。
マルチモーダルな人物クラスタリングを評価するためのビデオパーソンクラスタリングデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:59:40Z) - Deep Incomplete Multi-View Multiple Clusterings [41.43164409639238]
データビューと複数の共有表現を同時に補完する、深い不完全なマルチビュー多重クラスタリングフレームワークを導入する。
ベンチマークデータセットの実験では、DiMVMCは、多様性と品質の高い複数のクラスタリングの生成において、最先端の競合よりも優れていることが確認されている。
論文 参考訳(メタデータ) (2020-10-02T08:01:24Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。