論文の概要: A Survey of Task-Based Machine Learning Content Extraction Services for
VIDINT
- arxiv url: http://arxiv.org/abs/2207.04158v1
- Date: Sat, 9 Jul 2022 00:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:27:10.774784
- Title: A Survey of Task-Based Machine Learning Content Extraction Services for
VIDINT
- Title(参考訳): VIDINTにおけるタスクベース機械学習コンテンツ抽出サービスの検討
- Authors: Joshua Brunk, Nathan Jermann, Ryan Sharp, Carl D. Hoover
- Abstract要約: ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。
ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、組織にとって急速に重要になっている。
本稿では、ビデオから情報を取り出すタスクと機械学習技術に基づいて、製品、ソフトウェアリソース、ビデオ分析機能をレビューし、比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a comparison of current video content extraction tools
with a focus on comparing commercial task-based machine learning services.
Video intelligence (VIDINT) data has become a critical intelligence source in
the past decade. The need for AI-based analytics and automation tools to
extract and structure content from video has quickly become a priority for
organizations needing to search, analyze and exploit video at scale. With rapid
growth in machine learning technology, the maturity of machine transcription,
machine translation, topic tagging, and object recognition tasks are improving
at an exponential rate, breaking performance records in speed and accuracy as
new applications evolve. Each section of this paper reviews and compares
products, software resources and video analytics capabilities based on tasks
relevant to extracting information from video with machine learning techniques.
- Abstract(参考訳): 本稿では,現状のビデオコンテンツ抽出ツールの比較を行い,商用タスクベースの機械学習サービスの比較に焦点をあてる。
ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。
ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、ビデオの大規模な検索、分析、活用を必要とする組織にとって、急速に重要になっている。
機械学習技術の急速な成長に伴い、機械転写、機械翻訳、話題タグ付け、オブジェクト認識タスクの成熟度が指数関数的に向上し、新しいアプリケーションが進化するにつれて、パフォーマンスの記録を速さと正確さで破る。
本稿の各セクションでは,映像から情報を抽出するタスクと機械学習技術に基づいて,製品,ソフトウェアリソース,ビデオ分析機能を比較し,比較する。
関連論文リスト
- Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - CLASSify: A Web-Based Tool for Machine Learning [0.0]
本稿では、機械学習の分類問題の自動化ツールについて、学習モデルのプロセスを簡単にし、結果を生成するとともに、データに対する情報的可視化と洞察を提供する。
CLASSifyは、機械学習の知識を必要とせずに分類問題を解決するオープンソースのツールである。
論文 参考訳(メタデータ) (2023-10-05T15:51:36Z) - Video-Instrument Synergistic Network for Referring Video Instrument
Segmentation in Robotic Surgery [29.72271827272853]
本研究は,手術用ビデオ機器(RSVIS)の新たな課題を探求する。
与えられた言語表現に基づいて対応する手術器具を自動的に識別・分節することを目的としている。
我々は,ビデオレベルと楽器レベルの両方の知識を学習し,性能を向上させるために,ビデオ機器合成ネットワーク(VIS-Net)を考案した。
論文 参考訳(メタデータ) (2023-08-18T11:24:06Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Task-Oriented Communication for Edge Video Analytics [12.407842660415414]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-25T12:09:12Z) - Automated Graph Machine Learning: Approaches, Libraries and Directions [81.21692888288658]
我々は、グラフ機械学習のためのHPOとNASをカバーする自動グラフマシンアプローチについて論じる。
当社の専用かつ世界初のグラフ機械学習のためのオープンソースライブラリであるAutoGLを紹介します。
本論文は,自動グラフ機械学習のためのアプローチ,ライブラリ,方向性に関する,最初の体系的かつ包括的な議論である。
論文 参考訳(メタデータ) (2022-01-04T18:31:31Z) - Do You See What I See? Capabilities and Limits of Automated Multimedia
Content Analysis [0.0]
本稿では,自動コンテンツ分析ツールの機能と限界について説明する。
これは、マッチングモデルとコンピュータ予測モデルという2つの主要なツールカテゴリに焦点を当てている。
論文 参考訳(メタデータ) (2021-12-15T22:42:00Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - A Survey of Performance Optimization in Neural Network-Based Video
Analytics Systems [0.9558392439655014]
ビデオ分析システムは、ビデオ内で自動イベント、動き、行動認識を実行する。
本稿では,ニューラルネットワークに基づくビデオ分析システムの性能最適化に重点を置く技術について概説する。
論文 参考訳(メタデータ) (2021-05-10T17:06:44Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。