論文の概要: A Survey of Task-Based Machine Learning Content Extraction Services for
VIDINT
- arxiv url: http://arxiv.org/abs/2207.04158v1
- Date: Sat, 9 Jul 2022 00:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:27:10.774784
- Title: A Survey of Task-Based Machine Learning Content Extraction Services for
VIDINT
- Title(参考訳): VIDINTにおけるタスクベース機械学習コンテンツ抽出サービスの検討
- Authors: Joshua Brunk, Nathan Jermann, Ryan Sharp, Carl D. Hoover
- Abstract要約: ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。
ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、組織にとって急速に重要になっている。
本稿では、ビデオから情報を取り出すタスクと機械学習技術に基づいて、製品、ソフトウェアリソース、ビデオ分析機能をレビューし、比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a comparison of current video content extraction tools
with a focus on comparing commercial task-based machine learning services.
Video intelligence (VIDINT) data has become a critical intelligence source in
the past decade. The need for AI-based analytics and automation tools to
extract and structure content from video has quickly become a priority for
organizations needing to search, analyze and exploit video at scale. With rapid
growth in machine learning technology, the maturity of machine transcription,
machine translation, topic tagging, and object recognition tasks are improving
at an exponential rate, breaking performance records in speed and accuracy as
new applications evolve. Each section of this paper reviews and compares
products, software resources and video analytics capabilities based on tasks
relevant to extracting information from video with machine learning techniques.
- Abstract(参考訳): 本稿では,現状のビデオコンテンツ抽出ツールの比較を行い,商用タスクベースの機械学習サービスの比較に焦点をあてる。
ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。
ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、ビデオの大規模な検索、分析、活用を必要とする組織にとって、急速に重要になっている。
機械学習技術の急速な成長に伴い、機械転写、機械翻訳、話題タグ付け、オブジェクト認識タスクの成熟度が指数関数的に向上し、新しいアプリケーションが進化するにつれて、パフォーマンスの記録を速さと正確さで破る。
本稿の各セクションでは,映像から情報を抽出するタスクと機械学習技術に基づいて,製品,ソフトウェアリソース,ビデオ分析機能を比較し,比較する。
関連論文リスト
- Machine vision-aware quality metrics for compressed image and video assessment [0.0]
現代のビデオ分析の取り組みには、人間の介入を最小限に抑えたマシンビジョン処理を必要とするほど多くのデータが含まれている。
本稿では,圧縮が検出および認識アルゴリズムに与える影響について検討する。
マシンビジョンに合わせて、各タスクに新しいフル参照イメージ/ビデオ品質メトリクスを導入している。
論文 参考訳(メタデータ) (2024-11-11T08:07:34Z) - DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文 参考訳(メタデータ) (2024-10-24T03:29:57Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - CLASSify: A Web-Based Tool for Machine Learning [0.0]
本稿では、機械学習の分類問題の自動化ツールについて、学習モデルのプロセスを簡単にし、結果を生成するとともに、データに対する情報的可視化と洞察を提供する。
CLASSifyは、機械学習の知識を必要とせずに分類問題を解決するオープンソースのツールである。
論文 参考訳(メタデータ) (2023-10-05T15:51:36Z) - Video-Instrument Synergistic Network for Referring Video Instrument
Segmentation in Robotic Surgery [29.72271827272853]
本研究は,手術用ビデオ機器(RSVIS)の新たな課題を探求する。
与えられた言語表現に基づいて対応する手術器具を自動的に識別・分節することを目的としている。
我々は,ビデオレベルと楽器レベルの両方の知識を学習し,性能を向上させるために,ビデオ機器合成ネットワーク(VIS-Net)を考案した。
論文 参考訳(メタデータ) (2023-08-18T11:24:06Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-25T12:09:12Z) - Automated Graph Machine Learning: Approaches, Libraries, Benchmarks and Directions [58.220137936626315]
本稿では,グラフ機械学習の自動手法について論じる。
当社の専用かつ世界初のグラフ機械学習のためのオープンソースライブラリであるAutoGLを紹介します。
また、統一的で再現性があり、効率的な評価をサポートする調整されたベンチマークについて述べる。
論文 参考訳(メタデータ) (2022-01-04T18:31:31Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。