Fugu-MT 論文翻訳(概要): Beyond Pedestrians: Caption-Guided CLIP Framework for High-Difficulty Video-based Person Re-Identification

論文の概要: Beyond Pedestrians: Caption-Guided CLIP Framework for High-Difficulty Video-based Person Re-Identification

arxiv url: http://arxiv.org/abs/2604.07740v1
Date: Thu, 09 Apr 2026 02:55:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.651769
Title: Beyond Pedestrians: Caption-Guided CLIP Framework for High-Difficulty Video-based Person Re-Identification
Title（参考訳）: 歩行者を超えて:高難易度ビデオベースの人物再識別のためのCaption-Guided CLIP Framework
Authors: Shogo Hamano, Shunya Wakasugi, Tatsuhito Sato, Sayaka Nakamura,
Abstract要約: テキスト記述と学習可能なトークンを活用するキャプション誘導型CLIPフレームワークを提案する。我々は2つの標準データセットと2つの新しく構築された高次データセットに対するアプローチを評価する。実験により,本手法は現在の最先端手法よりも優れていることが示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, video-based person Re-Identification (ReID) has gained attention for its ability to leverage spatiotemporal cues to match individuals across non-overlapping cameras. However, current methods struggle with high-difficulty scenarios, such as sports and dance performances, where multiple individuals wear similar clothing while performing dynamic movements. To overcome these challenges, we propose CG-CLIP, a novel caption-guided CLIP framework that leverages explicit textual descriptions and learnable tokens. Our method introduces two key components: Caption-guided Memory Refinement (CMR) and Token-based Feature Extraction (TFE). CMR utilizes captions generated by Multi-modal Large Language Models (MLLMs) to refine identity-specific features, capturing fine-grained details. TFE employs a cross-attention mechanism with fixed-length learnable tokens to efficiently aggregate spatiotemporal features, reducing computational overhead. We evaluate our approach on two standard datasets (MARS and iLIDS-VID) and two newly constructed high-difficulty datasets (SportsVReID and DanceVReID). Experimental results demonstrate that our method outperforms current state-of-the-art approaches, achieving significant improvements across all benchmarks.
Abstract（参考訳）: 近年、ビデオベースの人物再同定(ReID)は、重複しないカメラで個人を一致させる時空間的手がかりを活用する能力に注目されている。しかし、現在の手法では、スポーツやダンスの演奏など、複数の個人がダイナミックな動きをしながら同様の服を着ているような、高度な難易度の高いシナリオに苦慮している。これらの課題を克服するために,明示的なテキスト記述と学習可能なトークンを活用する新しいキャプション誘導CLIPフレームワークであるCG-CLIPを提案する。本稿では,CMR(Caption-guided Memory Refinement)とTFE(Token-based Feature extract)の2つの重要なコンポーネントを紹介する。 CMRは、MLLM(Multi-modal Large Language Models)によって生成されたキャプションを使用して、アイデンティティ固有の特徴を洗練し、きめ細かい詳細をキャプチャする。 TFEは、固定長の学習可能なトークンを持つクロスアテンション機構を使用して、時空間の特徴を効率的に集約し、計算オーバーヘッドを削減している。我々は,2つの標準データセット(MARSとiLIDS-VID)と2つの新しい高次データセット(SportsVReIDとDanceVReID)について検討した。実験の結果,提案手法は現在の最先端手法よりも優れており,全てのベンチマークで大幅な改善が得られた。

関連論文リスト

Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining [86.49790441700195]
ClusterSTMは、効率的なビデオ言語事前学習のためのクラスタワイズ時空間マスキング戦略である。従来の視覚的再構成以上の高レベルなマルチモーダル・セマンティクスを整列するビデオテキスト関連性再構築手法を提案する。
論文参考訳（メタデータ） (2026-03-24T08:48:15Z)
STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。 ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文参考訳（メタデータ） (2025-12-13T15:57:29Z)
Skeletons Speak Louder than Text: A Motion-Aware Pretraining Paradigm for Video-Based Person Re-Identification [8.135364788458423]
マルチモーダル・プレトレーニングは視覚的理解に革命をもたらしたが、人に基づく人物再識別(ReID)への影響はいまだ未発見である。既存のアプローチはビデオとテキストのペアに依存することが多いが、(1)真のマルチモーダル事前学習の欠如、(2)テキストが微妙な時間運動を捉えにくいという2つの基本的な制限に悩まされている。 ReIDのための最初のスケルトン駆動事前学習フレームワークを導入することで、テキストベースのパラダイムから大胆に離れる。
論文参考訳（メタデータ） (2025-11-17T08:59:41Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文参考訳（メタデータ） (2025-06-03T04:49:08Z)
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文参考訳（メタデータ） (2025-01-15T03:17:24Z)
FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文参考訳（メタデータ） (2024-07-02T10:55:43Z)
Video-based Person Re-identification with Long Short-Term Representation Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T16:22:47Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。