論文の概要: Towards Transparent Application of Machine Learning in Video Processing
- arxiv url: http://arxiv.org/abs/2105.12700v2
- Date: Thu, 27 May 2021 09:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 11:33:41.419489
- Title: Towards Transparent Application of Machine Learning in Video Processing
- Title(参考訳): 映像処理における機械学習の透明化に向けて
- Authors: Luka Murn, Marc Gorriz Blanch, Maria Santamaria, Fiona Rivera, Marta
Mrak
- Abstract要約: ディープラーニングのブレークスルーにより、より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。
新しいテクニックは、典型的には、リソースを消費するブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。
本研究の目的は,ビデオ処理アプリケーションにおける学習モデルの理解と最適化である。
- 参考スコア(独自算出の注目度): 3.491870689686827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning techniques for more efficient video compression and video
enhancement have been developed thanks to breakthroughs in deep learning. The
new techniques, considered as an advanced form of Artificial Intelligence (AI),
bring previously unforeseen capabilities. However, they typically come in the
form of resource-hungry black-boxes (overly complex with little transparency
regarding the inner workings). Their application can therefore be unpredictable
and generally unreliable for large-scale use (e.g. in live broadcast). The aim
of this work is to understand and optimise learned models in video processing
applications so systems that incorporate them can be used in a more trustworthy
manner. In this context, the presented work introduces principles for
simplification of learned models targeting improved transparency in
implementing machine learning for video production and distribution
applications. These principles are demonstrated on video compression examples,
showing how bitrate savings and reduced complexity can be achieved by
simplifying relevant deep learning models.
- Abstract(参考訳): より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。
人工知能(AI)の先進的な形態と見なされるこの新技術は、これまで予期せぬ能力をもたらす。
しかし、それらは典型的には、資源不足のブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。
したがって、それらの応用は予測不可能であり、大規模な用途(例えば、)では一般的に信頼できない。
ライブ放送)。
この研究の目的は、ビデオ処理アプリケーションにおける学習モデルを理解し、最適化することで、それらを組み込んだシステムがより信頼できる方法で使用できるようにすることである。
この文脈では、ビデオ制作および配信アプリケーションのための機械学習の実装における透明性の向上を目的とした学習モデルの簡易化のための原則を導入する。
これらの原理はビデオ圧縮の例で示されており、関連するディープラーニングモデルを単純化することで、ビットレートの節約と複雑さの低減がいかに達成できるかを示している。
関連論文リスト
- DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文 参考訳(メタデータ) (2024-10-24T03:29:57Z) - Stop overkilling simple tasks with black-box models and use transparent
models instead [57.42190785269343]
ディープラーニングアプローチは、生データから自律的に機能を抽出することができる。
これにより、機能エンジニアリングプロセスをバイパスすることができる。
ディープラーニング戦略は、しばしば精度で従来のモデルより優れている。
論文 参考訳(メタデータ) (2023-02-06T14:28:49Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - From Actions to Events: A Transfer Learning Approach Using Improved Deep
Belief Networks [1.0554048699217669]
本稿では,エネルギーモデルを用いた行動認識からイベント認識への知識マッピング手法を提案する。
このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。
論文 参考訳(メタデータ) (2022-11-30T14:47:10Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Ada-VSR: Adaptive Video Super-Resolution with Meta-Learning [56.676110454594344]
VideoSuperResolution(Ada-SR)は、メタトランスファー学習と内部学習を通じて、それぞれ外部および内部情報を使用する。
提案手法を用いてトレーニングしたモデルでは,若干の勾配更新しか行わず,特定の映像条件に迅速に適応できるため,推論時間を大幅に短縮できる。
論文 参考訳(メタデータ) (2021-08-05T19:59:26Z) - Analytic Simplification of Neural Network based Intra-Prediction Modes
for Video Compression [10.08097582267397]
本稿では,学習モデルから簡易な予測法を導出する2つの方法を提案する。
これらの合理化技術は, 効率的な圧縮解に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T10:25:54Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。