論文の概要: 2rd Place Solutions in the HC-STVG track of Person in Context Challenge
2021
- arxiv url: http://arxiv.org/abs/2106.07166v1
- Date: Mon, 14 Jun 2021 05:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:58:21.450702
- Title: 2rd Place Solutions in the HC-STVG track of Person in Context Challenge
2021
- Title(参考訳): 第2位 hc-stvg track of person in context challenge 2021
- Authors: YiYu and XinyingWang and WeiHu and XunLuo and ChengLi
- Abstract要約: HC-STVGトラックにおける第2のvOUI(0.30025)をPICチャレンジで達成する。
ヒトの属性は文章から抽出され、試験段階のチューブをフィルタリングし、トレーニング段階の外観情報を学習するよう指導するのに役立つ。
- 参考スコア(独自算出の注目度): 15.62818814292783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we present our solution to localize a
spatio-temporal person in an untrimmed video based on a sentence. We achieve
the second vIOU(0.30025) in the HC-STVG track of the 3rd Person in Context(PIC)
Challenge. Our solution contains three parts: 1) human attributes information
is extracted from the sentence, it is helpful to filter out tube proposals in
the testing phase and supervise our classifier to learn appearance information
in the training phase. 2) we detect humans with YoloV5 and track humans based
on the DeepSort framework but replace the original ReID network with FastReID.
3) a visual transformer is used to extract cross-modal representations for
localizing a spatio-temporal tube of the target person.
- Abstract(参考訳): 本技術報告では,文章に基づくビデオ中の時空間人物をローカライズする手法を提案する。
HC-STVGの3rd Person in Context(PIC) Challengeにおける第2のvIOU(0.30025)を達成した。
1) 人間の属性情報は文から抽出され, 試験段階の管の提案をフィルタリングし, 分類器を監督し, 訓練段階の外観情報を学習することが有用である。
2) We detect human with YoloV5 and track human based on the DeepSort framework but then the original ReID network with FastReID。
3) 対象者の時空間的チューブを局在化するためのクロスモーダル表現を抽出するのに視覚トランスフォーマーを用いる。
関連論文リスト
- The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 [11.64675515432159]
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。
最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。
同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
論文 参考訳(メタデータ) (2024-07-01T12:52:05Z) - HOPE: Hierarchical Spatial-temporal Network for Occupancy Flow
Prediction [10.02342218798102]
CVPR 2022のオープンチャレンジにおけるOccupancy and Flow Predictionチャレンジに対する私たちのソリューションを紹介します。
我々は,空間時間エンコーダ,潜伏変数に富んだマルチスケールアグリゲータ,階層型3Dデコーダを備えた新しい階層型空間時空間ネットワークを開発した。
本手法は,フローグラウンドのAUCを0.8389で達成し,他のすべてのチームよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-21T05:25:58Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - Human-centric Spatio-Temporal Video Grounding With Visual Transformers [70.50326310780407]
我々は,Human Spatio-Temporal Video Grounding(HC-STVG)という新しいタスクを紹介する。
HC-STVGは、所定の記述に基づいて、対象者の時間管をアンビデオからローカライズすることを目的としている。
我々は,S-Temporal Grounding with Visual Transformers (STGVT) という,効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T11:23:38Z) - LID 2020: The Learning from Imperfect Data Challenge Results [242.86700551532272]
Imperfect Dataワークショップからの学習は、新しいアプローチの開発に刺激を与え、促進することを目的としている。
我々は、弱教師付き学習環境における最先端のアプローチを見つけるために、3つの課題を編成する。
この技術的レポートは、課題のハイライトを要約している。
論文 参考訳(メタデータ) (2020-10-17T13:06:12Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。