Fugu-MT 論文翻訳(概要): Visual Timelines of Police Encounters in Body-Worn Camera Footage: Operational Context and Activity Cataloging for Training and Analysis in OpenBWC

論文の概要: Visual Timelines of Police Encounters in Body-Worn Camera Footage: Operational Context and Activity Cataloging for Training and Analysis in OpenBWC

arxiv url: http://arxiv.org/abs/2605.17095v1
Date: Sat, 16 May 2026 17:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.605921
Title: Visual Timelines of Police Encounters in Body-Worn Camera Footage: Operational Context and Activity Cataloging for Training and Analysis in OpenBWC
Title（参考訳）: ボディウォーンカメラ写真における警察官の視線タイムライン:OpenBWCにおける訓練と分析のための運用状況と活動カタログ
Authors: Angela Srbinovska, Christopher Homan, Adrian Martin, Ernest Fokoué,
Abstract要約: 法執行機関は、大量のボディウーンカメラ(BWC)の映像を蓄積している。本稿では,BWC動画を10秒間の固定長ウィンドウの時系列に処理する方法を提案する。私たちは、CLIPモデルを用いてエンコードされ、ウィンドウレベルの表現に集約された各ウィンドウからサンプリングされたフレームを使用して、2つの軸に基づいてウィンドウを分類するモデルを訓練する。
参考スコア（独自算出の注目度）: 4.246509410711165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Law enforcement agencies are accumulating vast amounts of body-worn camera (BWC) footage. However, this remains operationally opaque. That is, analysts and trainers still have to invest considerable time watching full-length videos to pinpoint the start of key encounters and identify the points where activity shifts to something more physically intense. We present an approach to process BWC video into a time-aligned sequence of fixed-length 10-second windows, processed and labeled using a privacy-conscious protocol. Each window is labeled with two dimensions of information: (i) the operational context of the window and (ii) the level of motion intensity within the window, with low-evidence labels for windows for which insufficient evidence exists due to darkness, blur or occlusion. We train models to classify windows based on these two axes using frames sampled from each window encoded using CLIP model and aggregated into a window-level representation. We extract dense optical flow statistics for each window to capture motion intensity. On test windows the best context model achieves 78.75% accuracy, and the best-accuracy activity model achieves 88.33%. We also included integrity audits to show the results and how the visual timeline representations support faster incident review and make the officer training workflow more practical.
Abstract（参考訳）: 法執行機関は、大量のボディウーンカメラ(BWC)の映像を蓄積している。しかし、これは運用上不透明である。つまり、アナリストやトレーナーは、重要な出会いの始まりを特定し、活動がより物理的に激しいものへと変化するポイントを特定するために、フル長のビデオを見るのにかなりの時間を費やしなければならない。本稿では,BWC動画を10秒間の固定長ウィンドウの時間順に処理し,プライバシーに配慮したプロトコルを用いてラベル付けする手法を提案する。各ウィンドウは2次元の情報でラベル付けされる。 (i)ウィンドウとウィンドウの運用状況 (二)窓内の運動強度のレベルは、暗黒、ぼかし、または閉塞による証拠が不十分な窓の低明度ラベルである。私たちは、CLIPモデルを用いてエンコードされ、ウィンドウレベルの表現に集約された各ウィンドウからサンプリングされたフレームを使用して、これらの2つの軸に基づいてウィンドウを分類するモデルを訓練する。我々は、動きの強度を捉えるために、各窓の密度の高い光フロー統計を抽出する。テストウィンドウでは、最高のコンテキストモデルは78.75%の精度で、最も正確なアクティビティモデルは88.33%である。また、結果を示す整合性監査や、視覚タイムライン表現がインシデントレビューをより高速に支援し、オフィサーのトレーニングワークフローをより実用的なものにする方法についても紹介した。

関連論文リスト

Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文参考訳（メタデータ） (2024-05-11T15:09:22Z)
Follow Anything: Open-set detection, tracking, and following in real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。 FAnは軽量(6～8GB)グラフィックカードでラップトップにデプロイでき、毎秒6～20フレームのスループットを実現する。
論文参考訳（メタデータ） (2023-08-10T17:57:06Z)
TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文参考訳（メタデータ） (2023-06-14T17:07:51Z)
Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文参考訳（メタデータ） (2023-04-13T22:20:54Z)
Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。 State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文参考訳（メタデータ） (2022-10-17T21:22:41Z)
FrameHopper: Selective Processing of Video Frames in Detection-driven Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-22T07:05:57Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文参考訳（メタデータ） (2021-06-04T08:44:50Z)
No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文参考訳（メタデータ） (2021-03-29T07:44:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。