Fugu-MT 論文翻訳(概要): A new Video Synopsis Based Approach Using Stereo Camera

論文の概要: A new Video Synopsis Based Approach Using Stereo Camera

arxiv url: http://arxiv.org/abs/2106.12362v1
Date: Wed, 23 Jun 2021 12:57:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-24 15:14:04.393639
Title: A new Video Synopsis Based Approach Using Stereo Camera
Title（参考訳）: ステレオカメラを用いた新しいビデオ合成手法
Authors: Talha Dilber, Mehmet Serdar Guzel, Erkan Bostanci
Abstract要約: 物体に基づく教師なし学習を用いた新しい異常検出法を開発した。この方法を用いて、映像データを画素として処理し、その結果をビデオセグメントとして生成する。私たちが開発したモデルは、単眼カメラとデュアルカメラシステムで別々にテストされ、検証されている。
参考スコア（独自算出の注目度）: 0.5801044612920815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In today's world, the amount of data produced in every field has increased at an unexpected level. In the face of increasing data, the importance of data processing has increased remarkably. Our resource topic is on the processing of video data, which has an important place in increasing data, and the production of summary videos. Within the scope of this resource, a new method for anomaly detection with object-based unsupervised learning has been developed while creating a video summary. By using this method, the video data is processed as pixels and the result is produced as a video segment. The process flow can be briefly summarized as follows. Objects on the video are detected according to their type, and then they are tracked. Then, the tracking history data of the objects are processed, and the classifier is trained with the object type. Thanks to this classifier, anomaly behavior of objects is detected. Video segments are determined by processing video moments containing anomaly behaviors. The video summary is created by extracting the detected video segments from the original video and combining them. The model we developed has been tested and verified separately for single camera and dual camera systems.
Abstract（参考訳）: 今日の世界では、各分野で生成されるデータ量は予期せぬレベルで増加している。データの増加に直面したデータ処理の重要性は著しく高まっている。当社のリソーストピックは,データ増加に重要な位置を占めるビデオデータの処理と要約ビデオの生成に関するものです。このリソースの範囲内で,映像要約作成中に,オブジェクトベースの教師なし学習を用いた異常検出手法が開発されている。この方法を用いて、映像データを画素として処理し、ビデオセグメントとして結果を生成する。プロセスフローは、次のように簡単に要約できる。ビデオ上のオブジェクトは、そのタイプに応じて検出され、その後追跡される。そして、オブジェクトのトラッキング履歴データを処理し、そのオブジェクトタイプで分類器を訓練する。この分類器により、物体の異常な挙動を検出する。映像セグメントは、異常動作を含む映像モーメントを処理して決定される。検出されたビデオセグメントを元のビデオから抽出して組み合わせることで、ビデオ要約を作成する。私たちが開発したモデルは、シングルカメラとデュアルカメラシステムで別々にテストされ、検証されています。

関連論文リスト

BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-29T09:16:19Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文参考訳（メタデータ） (2024-11-28T05:37:54Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文参考訳（メタデータ） (2024-05-30T05:36:12Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文参考訳（メタデータ） (2024-01-25T04:39:48Z)
Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文参考訳（メタデータ） (2023-07-04T22:52:16Z)
Few-shot Action Recognition via Intra- and Inter-Video Information Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。 VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。 VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文参考訳（メタデータ） (2023-05-10T13:05:43Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Human Instance Segmentation and Tracking via Data Association and Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文参考訳（メタデータ） (2022-03-31T11:36:09Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Few-Shot Learning for Video Object Detection in a Transfer-Learning Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文参考訳（メタデータ） (2021-03-26T20:37:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。