論文の概要: Fine-Tuning Video-Text Contrastive Model for Primate Behavior Retrieval from Unlabeled Raw Videos
- arxiv url: http://arxiv.org/abs/2505.05681v1
- Date: Thu, 08 May 2025 22:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.101611
- Title: Fine-Tuning Video-Text Contrastive Model for Primate Behavior Retrieval from Unlabeled Raw Videos
- Title(参考訳): 未ラベル生ビデオからの霊長類行動検索のための微調整ビデオテキストコントラストモデル
- Authors: Giulio Cesare Mastrocinque Santo, Patrícia Izar, Irene Delval, Victor de Napole Gregolin, Nina S. T. Hirata,
- Abstract要約: 非ヒト霊長類の自然生息地におけるビデオ記録は、野生での行動を研究するための共通の情報源である。
我々は,カプチン猿の特定の領域に対して,事前学習したビデオテキスト基盤モデルを微調整する。
- 参考スコア(独自算出の注目度): 0.2796197251957245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video recordings of nonhuman primates in their natural habitat are a common source for studying their behavior in the wild. We fine-tune pre-trained video-text foundational models for the specific domain of capuchin monkeys, with the goal of developing useful computational models to help researchers to retrieve useful clips from videos. We focus on the challenging problem of training a model based solely on raw, unlabeled video footage, using weak audio descriptions sometimes provided by field collaborators. We leverage recent advances in Multimodal Large Language Models (MLLMs) and Vision-Language Models (VLMs) to address the extremely noisy nature of both video and audio content. Specifically, we propose a two-folded approach: an agentic data treatment pipeline and a fine-tuning process. The data processing pipeline automatically extracts clean and semantically aligned video-text pairs from the raw videos, which are subsequently used to fine-tune a pre-trained Microsoft's X-CLIP model through Low-Rank Adaptation (LoRA). We obtained an uplift in $Hits@5$ of $167\%$ for the 16 frames model and an uplift of $114\%$ for the 8 frame model on our domain data. Moreover, based on $NDCG@K$ results, our model is able to rank well most of the considered behaviors, while the tested raw pre-trained models are not able to rank them at all. The code will be made available upon acceptance.
- Abstract(参考訳): 非ヒト霊長類の自然生息地におけるビデオ記録は、野生での行動を研究するための共通の情報源である。
我々は、ビデオから有用なクリップを検索するのに役立つ有用な計算モデルを開発することを目的として、カプチン猿の特定の領域に関する事前訓練されたビデオテキスト基盤モデルを微調整する。
我々は、フィールドコラボレータが時々提供する弱い音声記述を用いて、生の未ラベル映像のみをベースとしたモデルのトレーニングに焦点をあてる。
マルチモーダル大言語モデル (MLLM) とビジョン言語モデル (VLM) の最近の進歩を活用し,ビデオコンテンツとオーディオコンテンツの非常にノイズの多い性質に対処する。
具体的には,エージェントデータ処理パイプラインと微調整プロセスという2つのアプローチを提案する。
データ処理パイプラインは、生のビデオからクリーンでセマンティックに整合したビデオテキストペアを自動的に抽出し、Low-Rank Adaptation (LoRA)を通じてトレーニング済みのMicrosoftのX-CLIPモデルを微調整する。
私たちは16フレームモデルで$Hits@5$$167\%、ドメインデータで8フレームモデルで$14\%のアップリフトを取得しました。
さらに、NDCG@K$の結果に基づいて、我々のモデルは検討された行動のほとんどをうまくランク付けできますが、テスト済みの生モデルは全くランク付けできません。
コードは受理時に利用可能になる。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。