論文の概要: Multi-area Target Individual Detection with Free Drawing on Video
- arxiv url: http://arxiv.org/abs/2207.02467v1
- Date: Wed, 6 Jul 2022 06:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:56:47.657708
- Title: Multi-area Target Individual Detection with Free Drawing on Video
- Title(参考訳): 映像自由描画による多領域目標個人検出
- Authors: Jinwei Lin
- Abstract要約: ビデオ上の描画はポリラインとして出力され、描画や検出の段階が変更されたときにアウトラインの色が変わる。
描画領域の形状は自由にカスタマイズでき、リアルタイムに有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper has provided a novel design idea and some implementation methods
to make a real time detection of multi-areas with multiple detecting areas that
are generated by the real time drawing on the screen display of the video. The
drawing on the video will remain the output as polylines, and the colors of the
outlines will change when the stage of drawing or detecting is changed. The
shape of the drawn area is free to be customized and real-time effective. The
configuration of the drawn areas can be renewed and the detecting areas are
working individually. The detection result should be shown with a GUI designed
by Tkinter. The object recognition model was developed on YOLOv5 but can be
changed to others, which means the core design and implementation idea of this
paper is model-independent. With PIL and OpenCV and Tkinter, the drawing effect
is real time and efficient. The design and code of this research is basic and
can be extended to be implemented in numerous monitoring and detecting
situations.
- Abstract(参考訳): 本稿では,ビデオの画面表示におけるリアルタイム描画によって生成される複数の検出領域を持つマルチエリアをリアルタイムに検出する,新しい設計アイデアと実装方法を提案する。
ビデオ上の描画はポリラインとして出力され、描画や検出の段階が変更されたときにアウトラインの色が変わる。
描画領域の形状は自由にカスタマイズでき、リアルタイムに有効である。
描画領域の構成を更新でき、検出領域が個別に動作する。
検出結果はTkinterの設計したGUIで表示されるべきである。
オブジェクト認識モデルはYOLOv5上で開発されたが、他のものに変更できるため、本論文の中核となる設計と実装の考え方はモデルに依存しない。
PIL、OpenCV、Tkinterでは、描画効果はリアルタイムで効率的である。
本研究の設計とコードは基本的であり,多数の監視・検出状況で実施できるように拡張することができる。
関連論文リスト
- Design and Identification of Keypoint Patches in Unstructured Environments [7.940068522906917]
画像内のキーポイント識別は、生画像から2D座標への直接マッピングを可能にする。
様々なスケール,回転,カメラ投影を考慮した,単純な4つの異なる設計を提案する。
様々な画像劣化条件下でのロバスト検出を確保するために,スーパーポイントネットワークをカスタマイズする。
論文 参考訳(メタデータ) (2024-10-01T09:05:50Z) - Mumpy: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection [41.4800103693756]
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。
提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
論文 参考訳(メタデータ) (2024-04-17T03:56:28Z) - EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning [31.583764158565916]
視覚的ユーザインタフェースにおけるスキャンパスを予測する機械学習モデルであるEyeFormerを提案する。
我々のモデルは、いくつかのユーザ・スキャンパス・サンプルが与えられたとき、パーソナライズされた予測を生成するユニークな能力を持っている。
固定位置や持続時間を含む全スキャンパス情報を個人や様々な刺激タイプで予測することができる。
論文 参考訳(メタデータ) (2024-04-15T22:26:27Z) - What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Visual Prompting via Image Inpainting [104.98602202198668]
そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。
事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
論文 参考訳(メタデータ) (2022-09-01T17:59:33Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。