Fugu-MT 論文翻訳(概要): A Survey of Task-Based Machine Learning Content Extraction Services for VIDINT

論文の概要: A Survey of Task-Based Machine Learning Content Extraction Services for VIDINT

arxiv url: http://arxiv.org/abs/2207.04158v1
Date: Sat, 9 Jul 2022 00:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 16:27:10.774784
Title: A Survey of Task-Based Machine Learning Content Extraction Services for VIDINT
Title（参考訳）: VIDINTにおけるタスクベース機械学習コンテンツ抽出サービスの検討
Authors: Joshua Brunk, Nathan Jermann, Ryan Sharp, Carl D. Hoover
Abstract要約: ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、組織にとって急速に重要になっている。本稿では、ビデオから情報を取り出すタスクと機械学習技術に基づいて、製品、ソフトウェアリソース、ビデオ分析機能をレビューし、比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper provides a comparison of current video content extraction tools with a focus on comparing commercial task-based machine learning services. Video intelligence (VIDINT) data has become a critical intelligence source in the past decade. The need for AI-based analytics and automation tools to extract and structure content from video has quickly become a priority for organizations needing to search, analyze and exploit video at scale. With rapid growth in machine learning technology, the maturity of machine transcription, machine translation, topic tagging, and object recognition tasks are improving at an exponential rate, breaking performance records in speed and accuracy as new applications evolve. Each section of this paper reviews and compares products, software resources and video analytics capabilities based on tasks relevant to extracting information from video with machine learning techniques.
Abstract（参考訳）: 本稿では,現状のビデオコンテンツ抽出ツールの比較を行い,商用タスクベースの機械学習サービスの比較に焦点をあてる。ビデオインテリジェンス(VIDINT)データは、過去10年間で重要なインテリジェンスソースになっている。ビデオからコンテンツを抽出し、構造化するためのAIベースの分析と自動化ツールの必要性は、ビデオの大規模な検索、分析、活用を必要とする組織にとって、急速に重要になっている。機械学習技術の急速な成長に伴い、機械転写、機械翻訳、話題タグ付け、オブジェクト認識タスクの成熟度が指数関数的に向上し、新しいアプリケーションが進化するにつれて、パフォーマンスの記録を速さと正確さで破る。本稿の各セクションでは,映像から情報を抽出するタスクと機械学習技術に基づいて,製品,ソフトウェアリソース,ビデオ分析機能を比較し,比較する。

関連論文リスト

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
Comparative Analysis of Image, Video, and Audio Classifiers for Automated News Video Segmentation [0.09208007322096533]
本稿では,自動ニュースビデオセグメンテーションのための画像,ビデオ,音声分類器の比較分析を行う。画像ベースの分類器は、より複雑な時間モデルに比べて優れた性能(84.34%の精度)を達成する。バイナリ分類モデルは、遷移(94.23%)と広告(92.74%)の精度を達成した
論文参考訳（メタデータ） (2025-03-27T16:42:50Z)
Large Language Models for Video Surveillance Applications [11.297664744056735]
本稿では,ジェネレーティブ・人工知能(GenAI)を用いた視覚言語モデルによる概念実証について述べる。本ツールでは,ユーザ定義クエリに基づいて,カスタマイズしたテキスト要約を生成する。
論文参考訳（メタデータ） (2025-01-06T08:57:44Z)
Machine vision-aware quality metrics for compressed image and video assessment [0.0]
現代のビデオ分析の取り組みには、人間の介入を最小限に抑えたマシンビジョン処理を必要とするほど多くのデータが含まれている。本稿では,圧縮が検出および認識アルゴリズムに与える影響について検討する。マシンビジョンに合わせて、各タスクに新しいフル参照イメージ/ビデオ品質メトリクスを導入している。
論文参考訳（メタデータ） (2024-11-11T08:07:34Z)
DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文参考訳（メタデータ） (2024-10-24T03:29:57Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
CLASSify: A Web-Based Tool for Machine Learning [0.0]
本稿では、機械学習の分類問題の自動化ツールについて、学習モデルのプロセスを簡単にし、結果を生成するとともに、データに対する情報的可視化と洞察を提供する。 CLASSifyは、機械学習の知識を必要とせずに分類問題を解決するオープンソースのツールである。
論文参考訳（メタデータ） (2023-10-05T15:51:36Z)
Video-Instrument Synergistic Network for Referring Video Instrument Segmentation in Robotic Surgery [29.72271827272853]
本研究は,手術用ビデオ機器(RSVIS)の新たな課題を探求する。与えられた言語表現に基づいて対応する手術器具を自動的に識別・分節することを目的としている。我々は,ビデオレベルと楽器レベルの両方の知識を学習し,性能を向上させるために,ビデオ機器合成ネットワーク(VIS-Net)を考案した。
論文参考訳（メタデータ） (2023-08-18T11:24:06Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文参考訳（メタデータ） (2022-11-25T12:09:12Z)
Automated Graph Machine Learning: Approaches, Libraries, Benchmarks and Directions [58.220137936626315]
本稿では,グラフ機械学習の自動手法について論じる。当社の専用かつ世界初のグラフ機械学習のためのオープンソースライブラリであるAutoGLを紹介します。また、統一的で再現性があり、効率的な評価をサポートする調整されたベンチマークについて述べる。
論文参考訳（メタデータ） (2022-01-04T18:31:31Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。