論文の概要: VideoPro: A Visual Analytics Approach for Interactive Video Programming
- arxiv url: http://arxiv.org/abs/2308.00401v1
- Date: Tue, 1 Aug 2023 09:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 14:40:19.231773
- Title: VideoPro: A Visual Analytics Approach for Interactive Video Programming
- Title(参考訳): videopro:インタラクティブなビデオプログラミングのためのビジュアル分析アプローチ
- Authors: Jianben He, Xingbo Wang, Kam Kwai Wong, Xijie Huang, Changjian Chen,
Zixin Chen, Fengjie Wang, Min Zhu, and Huamin Qu
- Abstract要約: VideoProは、フレキシブルでスケーラブルなビデオデータプログラミングをサポートする、視覚分析のアプローチである。
まず、コンピュータビジョン技術を用いてビデオから人間の理解可能なイベントを抽出し、ラベル付け機能の原子部品として扱う。
本稿では,これらのイベントの逐次パターンを特徴付ける2段階のテンプレートマイニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.876790208938782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing supervised machine learning models for real-world video analysis
require substantial labeled data, which is costly to acquire due to scarce
domain expertise and laborious manual inspection. While data programming shows
promise in generating labeled data at scale with user-defined labeling
functions, the high dimensional and complex temporal information in videos
poses additional challenges for effectively composing and evaluating labeling
functions. In this paper, we propose VideoPro, a visual analytics approach to
support flexible and scalable video data programming for model steering with
reduced human effort. We first extract human-understandable events from videos
using computer vision techniques and treat them as atomic components of
labeling functions. We further propose a two-stage template mining algorithm
that characterizes the sequential patterns of these events to serve as labeling
function templates for efficient data labeling. The visual interface of
VideoPro facilitates multifaceted exploration, examination, and application of
the labeling templates, allowing for effective programming of video data at
scale. Moreover, users can monitor the impact of programming on model
performance and make informed adjustments during the iterative programming
process. We demonstrate the efficiency and effectiveness of our approach with
two case studies and expert interviews.
- Abstract(参考訳): 実世界のビデオ分析のために教師付き機械学習モデルを構築するには、かなりのラベル付きデータが必要である。
データプログラミングは、ユーザが定義したラベリング関数で大規模にラベル付きデータを生成することを約束する一方で、ビデオ内の高次元および複雑な時間情報は、ラベリング関数を効果的に構成し評価するための追加の課題をもたらす。
本稿では,人間の労力を削減したモデルステアリングのためのフレキシブルでスケーラブルなビデオデータプログラミングを支援するビジュアル分析手法であるVideoProを提案する。
まず,映像から人間の理解可能なイベントをコンピュータビジョン技術を用いて抽出し,ラベル付け機能のアトミックコンポーネントとして扱う。
さらに,これらのイベントの逐次パターンを特徴付け,効率的なデータラベリングのためのラベリング関数テンプレートとして機能する2段階テンプレートマイニングアルゴリズムを提案する。
VideoProのビジュアルインターフェースは、ラベル付けテンプレートの多面的探索、検査、適用を容易にし、大規模なビデオデータの効率的なプログラミングを可能にする。
さらに,プログラムがモデル性能に与える影響をモニタし,反復プログラミングプロセス中に情報調整を行うこともできる。
2つのケーススタディとエキスパートインタビューを用いて,提案手法の効率性と有効性を示す。
関連論文リスト
- VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Deep Learning Techniques for Video Instance Segmentation: A Survey [19.32547752428875]
ビデオインスタンスセグメンテーションは、2019年に導入された新しいコンピュータビジョン研究分野である。
ディープラーニング技術は、様々なコンピュータビジョン領域において支配的な役割を担っている。
このサーベイは、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供する。
論文 参考訳(メタデータ) (2023-10-19T00:27:30Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Generative Adversarial Data Programming [32.2164057862111]
本稿では,ラベル付け機能を用いた遠隔監視信号を用いて,与えられたデータのラベルをほぼ一定時間で取得できることを示す。
このフレームワークは、自己教師付きラベル付き画像生成、ラベル付き画像生成へのゼロショットテキスト、転送学習、マルチタスク学習など、さまざまな設定に拡張されている。
論文 参考訳(メタデータ) (2020-04-30T07:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。