論文の概要: Prompt When the Animal is: Temporal Animal Behavior Grounding with Positional Recovery Training
- arxiv url: http://arxiv.org/abs/2405.05523v1
- Date: Thu, 9 May 2024 03:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:12:43.945609
- Title: Prompt When the Animal is: Temporal Animal Behavior Grounding with Positional Recovery Training
- Title(参考訳): 動物がそうであるときのプロンプト:位置回復訓練による時間的動物行動グラウンドリング
- Authors: Sheng Yan, Xin Du, Zongying Li, Yi Wang, Hongcang Jin, Mengyuan Liu,
- Abstract要約: 時間的接地はマルチモーダル学習において重要であるが、動物行動データに適用した場合に課題が生じる。
本稿では,訓練中の特定の動物行動の開始と終了をモデルとして,新たな位置回復訓練フレームワーク(Port)を提案する。
動物王国のデータセットの実験では、ポートの有効性が示され、38.52のIoU@0.3が達成された。
- 参考スコア(独自算出の注目度): 23.42400768680185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding is crucial in multimodal learning, but it poses challenges when applied to animal behavior data due to the sparsity and uniform distribution of moments. To address these challenges, we propose a novel Positional Recovery Training framework (Port), which prompts the model with the start and end times of specific animal behaviors during training. Specifically, Port enhances the baseline model with a Recovering part to predict flipped label sequences and align distributions with a Dual-alignment method. This allows the model to focus on specific temporal regions prompted by ground-truth information. Extensive experiments on the Animal Kingdom dataset demonstrate the effectiveness of Port, achieving an IoU@0.3 of 38.52. It emerges as one of the top performers in the sub-track of MMVRAC in ICME 2024 Grand Challenges.
- Abstract(参考訳): 時間的接地は多モーダル学習において重要であるが、モーメントの空間性や均一な分布により動物行動データに適用した場合に課題が生じる。
これらの課題に対処するため,本研究では,訓練中の特定の動物行動の開始と終了をモデルとして,新たな位置回復訓練フレームワーク(Port)を提案する。
特に、ポートはリカバー部でベースラインモデルを強化し、フリップしたラベルシーケンスを予測し、デュアルアライメント法で分布を整列させる。
これにより、モデルでは、地軸情報によって引き起こされる特定の時間領域に焦点を合わせることができる。
動物王国のデータセットに関する大規模な実験は、ポートの有効性を実証し、38.52のIoU@0.3を達成した。
ICME 2024 Grand ChallengesではMMVRACのサブトラックでトップパフォーマーの1人として登場している。
関連論文リスト
- Addressing the Elephant in the Room: Robust Animal Re-Identification with Unsupervised Part-Based Feature Alignment [44.86310789545717]
動物型Re-IDは野生生物の保護に不可欠だが、人間型Re-IDと比較すると独特な課題に直面している。
本研究では,学習段階と評価段階の背景を体系的に除去する手法を提案することにより,背景バイアスに対処する。
本手法は,ATRW,YakReID-103,ELPephantsの3種の動物Re-IDデータセットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-05-22T16:08:06Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - APTv2: Benchmarking Animal Pose Estimation and Tracking with a
Large-scale Dataset and Beyond [27.50166679588048]
APTv2は動物のポーズ推定と追跡のための大規模ベンチマークのパイオニアである。
ビデオクリップは2,749本で、30種の動物から抽出・収集されている。
我々は,84,611種の動物インスタンスに対して高品質なキーポイントと追跡アノテーションを提供する。
論文 参考訳(メタデータ) (2023-12-25T04:49:49Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - CLAMP: Prompt-based Contrastive Learning for Connecting Language and
Animal Pose [70.59906971581192]
本稿では,言語とAniMal Poseを効果的に接続するための,新しいプロンプトベースのコントラスト学習手法を提案する。
CLAMPは、ネットワークトレーニング中にテキストプロンプトを動物のキーポイントに適応させることでギャップを埋めようとしている。
実験結果から, 教師付き, 少数ショット, ゼロショット設定下での最先端性能が得られた。
論文 参考訳(メタデータ) (2022-06-23T14:51:42Z) - APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.87449881852062]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。
このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。
我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文 参考訳(メタデータ) (2022-06-12T07:18:36Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Fine-grained Species Recognition with Privileged Pooling: Better Sample
Efficiency Through Supervised Attention [26.136331738529243]
トレーニングデータに対するキーポイントアノテーションの形式で特権情報を利用する教師付き画像分類手法を提案する。
我々の主な動機は、生物多様性モデリングのような生態学的応用のための動物種の認識である。
3つの異なる動物種のデータセットを用いた実験では、特権プールを持つ深層ネットワークがより効率的に小さなトレーニングセットを利用でき、より一般化できることが示されている。
論文 参考訳(メタデータ) (2020-03-20T10:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。