論文の概要: Skeletons Speak Louder than Text: A Motion-Aware Pretraining Paradigm for Video-Based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.13150v1
- Date: Mon, 17 Nov 2025 08:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.083656
- Title: Skeletons Speak Louder than Text: A Motion-Aware Pretraining Paradigm for Video-Based Person Re-Identification
- Title(参考訳): スケルトン話者はテキストよりも音声を聴く:ビデオに基づく人物再同定のための運動認識事前訓練パラダイム
- Authors: Rifen Lin, Alex Jinpeng Wang, Jiawei Mo, Min Li,
- Abstract要約: マルチモーダル・プレトレーニングは視覚的理解に革命をもたらしたが、人に基づく人物再識別(ReID)への影響はいまだ未発見である。
既存のアプローチはビデオとテキストのペアに依存することが多いが、(1)真のマルチモーダル事前学習の欠如、(2)テキストが微妙な時間運動を捉えにくいという2つの基本的な制限に悩まされている。
ReIDのための最初のスケルトン駆動事前学習フレームワークを導入することで、テキストベースのパラダイムから大胆に離れる。
- 参考スコア(独自算出の注目度): 8.135364788458423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal pretraining has revolutionized visual understanding, but its impact on video-based person re-identification (ReID) remains underexplored. Existing approaches often rely on video-text pairs, yet suffer from two fundamental limitations: (1) lack of genuine multimodal pretraining, and (2) text poorly captures fine-grained temporal motion-an essential cue for distinguishing identities in video. In this work, we take a bold departure from text-based paradigms by introducing the first skeleton-driven pretraining framework for ReID. To achieve this, we propose Contrastive Skeleton-Image Pretraining for ReID (CSIP-ReID), a novel two-stage method that leverages skeleton sequences as a spatiotemporally informative modality aligned with video frames. In the first stage, we employ contrastive learning to align skeleton and visual features at sequence level. In the second stage, we introduce a dynamic Prototype Fusion Updater (PFU) to refine multimodal identity prototypes, fusing motion and appearance cues. Moreover, we propose a Skeleton Guided Temporal Modeling (SGTM) module that distills temporal cues from skeleton data and integrates them into visual features. Extensive experiments demonstrate that CSIP-ReID achieves new state-of-the-art results on standard video ReID benchmarks (MARS, LS-VID, iLIDS-VID). Moreover, it exhibits strong generalization to skeleton-only ReID tasks (BIWI, IAS), significantly outperforming previous methods. CSIP-ReID pioneers an annotation-free and motion-aware pretraining paradigm for ReID, opening a new frontier in multimodal representation learning.
- Abstract(参考訳): マルチモーダル・プレトレーニングは視覚的理解に革命をもたらしたが、ビデオベースの人物再識別(ReID)への影響はいまだ検討されていない。
既存のアプローチは、ビデオテキストペアに依存することが多いが、(1)真のマルチモーダル事前訓練の欠如、(2)ビデオ内のアイデンティティを識別するための重要なキューとして、きめ細かな時間運動をうまく捉えていない、という2つの基本的な制限に悩まされている。
本研究では,ReIDのための骨格駆動型事前学習フレームワークを導入することで,テキストベースのパラダイムから大胆に脱却する。
そこで本研究では,ビデオフレームに対応する時空間情報モダリティとしてスケルトン配列を利用する新しい2段階手法であるReID(CSIP-ReID)を提案する。
第1段階では、コントラスト学習を用いて、骨格と視覚的特徴をシーケンスレベルで整列させる。
第2段階では、動的プロトタイプ核融合更新器(PFU)を導入し、マルチモーダル・アイデンティティーのプロトタイプを改良し、動きと外観を融合させる。
さらに,骨格データから時間的手がかりを抽出し,それらを視覚的特徴に統合するSkeleton Guided Temporal Modeling (SGTM) モジュールを提案する。
CSIP-ReIDは、標準ビデオReIDベンチマーク(MARS、LS-VID、iLIDS-VID)において、新しい最先端結果が得られることを示した。
さらに, 骨格のみのReIDタスク (BIWI, IAS) に強く一般化し, 従来の手法よりも優れていた。
CSIP-ReIDは、アノテーションのない、モーション対応のReID事前学習パラダイムを開拓し、マルチモーダル表現学習における新たなフロンティアを開く。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification [30.593882551803855]
Visible-Infrared person re-identification (VVI-ID) は、視界と赤外線を横断する同じ歩行者をモダリティから回収することを目的としている。
これらの課題に対処するために、DINOv2の豊富な視覚的優位性を活用して、外観に相補的な歩行特徴を学習するゲイト表現学習フレームワークを提案する。
具体的にはセマンティック・アウェア・シルエット・ゲイトラーニング(GL)モデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T11:21:13Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。
T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文 参考訳(メタデータ) (2025-03-19T10:50:03Z) - Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。