Fugu-MT 論文翻訳(概要): Hysia: Serving DNN-Based Video-to-Retail Applications in Cloud

論文の概要: Hysia: Serving DNN-Based Video-to-Retail Applications in Cloud

arxiv url: http://arxiv.org/abs/2006.05117v1
Date: Tue, 9 Jun 2020 08:45:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 15:57:09.988393
Title: Hysia: Serving DNN-Based Video-to-Retail Applications in Cloud
Title（参考訳）: Hysia: DNNベースのビデオ小売アプリケーションをクラウドで実行
Authors: Huaizheng Zhang, Yuanming Li, Qiming Ai, Yong Luo, Yonggang Wen, Yichao Jin and Nguyen Binh Duong Ta
Abstract要約: 私たちは、V2Rアプリケーションの開発とデプロイを簡単にするために、Hysiaというクラウドベースのプラットフォームをマルチメディアの実践者や研究者に提供します。 Hysiaは、1)NVIDIA Video SDK、Facebook faiss、gRPCなどの最先端ライブラリをシームレスに統合すること、2)GPU計算を効率的に活用すること、3)新しいモデルをバインドして、急速に変化するディープラーニング(DL)技術を満たすこと。
参考スコア（独自算出の注目度）: 15.078111088321043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Combining \underline{v}ideo streaming and online \underline{r}etailing (V2R) has been a growing trend recently. In this paper, we provide practitioners and researchers in multimedia with a cloud-based platform named Hysia for easy development and deployment of V2R applications. The system consists of: 1) a back-end infrastructure providing optimized V2R related services including data engine, model repository, model serving and content matching; and 2) an application layer which enables rapid V2R application prototyping. Hysia addresses industry and academic needs in large-scale multimedia by: 1) seamlessly integrating state-of-the-art libraries including NVIDIA video SDK, Facebook faiss, and gRPC; 2) efficiently utilizing GPU computation; and 3) allowing developers to bind new models easily to meet the rapidly changing deep learning (DL) techniques. On top of that, we implement an orchestrator for further optimizing DL model serving performance. Hysia has been released as an open source project on GitHub, and attracted considerable attention. We have published Hysia to DockerHub as an official image for seamless integration and deployment in current cloud environments.
Abstract（参考訳）: underline{v}ideo streaming と online \underline{r}etailing (v2r) の組み合わせは、近年増加傾向にある。本稿では,V2Rアプリケーションの開発とデプロイを容易にするクラウドベースのプラットフォームであるHysiaについて,マルチメディアの実践者と研究者に提供する。制度は以下の通り。 1)データエンジン、モデルリポジトリ、モデル提供およびコンテンツマッチングを含む最適化v2r関連サービスを提供するバックエンドインフラストラクチャ。 2) 高速なV2Rアプリケーションプロトタイピングを可能にするアプリケーション層。 Hysiaは、大規模マルチメディアにおける産業と学術的ニーズに対処する。 1) NVIDIA Video SDK、Facebook faiss、gRPCなどの最先端ライブラリをシームレスに統合する。 2)GPU計算を効率的に活用すること。 3) 新しいモデルを簡単にバインドでき、急速に変化するディープラーニング(dl)技術を満たすことができる。さらに,パフォーマンス向上のためのDLモデルをさらに最適化するためのオーケストレータを実装した。 HysiaはGitHubのオープンソースプロジェクトとしてリリースされており、かなりの注目を集めている。私たちはHysia to DockerHubを,現在のクラウド環境におけるシームレスな統合とデプロイメントの公式イメージとして公開しています。

関連論文リスト

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [163.56671779593736]
Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。 Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
論文参考訳（メタデータ） (2025-12-15T16:36:52Z)
Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform [104.39464309969253]
Visionaryは、リアルタイムな様々なガウススティングとレンダリングのための、オープンでWebネイティブなプラットフォームである。 Visionaryは、軽量で“クリック・トゥ・ラン”なブラウザエクスペリエンスを維持しながら、動的ニューラル処理を可能にする。
論文参考訳（メタデータ） (2025-12-09T10:54:58Z)
HunyuanVideo 1.5 Technical Report [96.9793191588414]
HunyuanVideo 1.5は軽量だが強力なオープンソースビデオ生成モデルである。最先端のビジュアル品質とモーションコヒーレンスを、わずか830億のパラメータで達成している。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5で公開されている。
論文参考訳（メタデータ） (2025-11-24T08:22:07Z)
Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-10-14T08:38:20Z)
Apple Intelligence Foundation Language Models: Tech Report 2025 [246.04717786298764]
AppleのデバイスやサービスにまたがってAppleのインテリジェンス機能を駆動する2つの基礎言語モデルを紹介します。どちらのモデルも、責任あるWebクローリングを通じてソースされる大規模なマルチリンガルデータセットとマルチモーダルデータセットに基づいてトレーニングされている。新しいSwift中心のFoundation Modelsフレームワークでは、ガイド付き生成、制約付きツール呼び出し、LoRAアダプタの微調整が公開されている。
論文参考訳（メタデータ） (2025-07-17T23:37:19Z)
Neural Video Compression using 2D Gaussian Splatting [0.0]
本稿では,2次元ガウススプラッティングを利用した関心領域に基づくニューラルビデオ圧縮モデルを提案する。本研究では,従来のガウススプラッティング画像の符号化時間を88%高速化するビデオパイプラインを設計した。
論文参考訳（メタデータ） (2025-05-14T12:23:53Z)
D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS [22.373386953378002]
Implicit Representations (INR) はビデオ表現の強力なアプローチとして登場し、圧縮やインペイントといったタスクの多角性を提供する。本稿では,D2GVと呼ばれる変形可能な2次元ガウススプラッティングに基づく新しい映像表現を提案する。我々はD2GVの多目的性について,映像表現における有望なソリューションとしての可能性を強調し,映像,ペンキ,デノベーションなどのタスクで実証する。
論文参考訳（メタデータ） (2025-03-07T17:26:27Z)
VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文参考訳（メタデータ） (2024-12-23T17:16:58Z)
NVILA: Efficient Frontier Visual Language Models [90.38936112050857]
我々は、効率と精度の両方を最適化するために設計されたオープンビジュアル言語モデル(VLM)のファミリであるNVILAを紹介する。 VILA上に構築したモデルアーキテクチャは,まず空間分解能と時間分解能をスケールアップし,次に視覚トークンを圧縮することによって改善する。我々は、NVILAのライフサイクル全体を通して、トレーニングや微調整から展開までの効率を高めるための体系的な調査を行っている。
論文参考訳（メタデータ） (2024-12-05T18:59:55Z)
HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4392082688739]
HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文参考訳（メタデータ） (2024-12-03T23:52:37Z)
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文参考訳（メタデータ） (2024-09-20T16:54:27Z)
CogVLM2: Visual Language Models for Image and Video Understanding [69.361109860391]
画像と映像の理解のための新しいビジュアル言語モデルであるCagVLM2ファミリを提案する。イメージ理解モデルとして、CogVLM2は、トレーニング前とトレーニング後の両方でトレーニングレシピを改善したビジュアルエキスパートアーキテクチャを継承する。ビデオ理解モデルとして、CogVLM2-Videoはマルチフレーム入力とタイムスタンプを統合し、時間的グラウンドの自動構築を提案する。
論文参考訳（メタデータ） (2024-08-29T12:59:12Z)
Stitched ViTs are Flexible Vision Backbones [51.441023711924835]
我々は、縫合可能なニューラルネットワーク(SN-Net)にインスパイアされ、訓練済みのモデルファミリーを縫合することで、リッチワークをカバーする単一のモデルを生成する。我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。 SN-Netv2は、下流の高密度予測においてSN-Netv1よりも優れた性能を示し、柔軟なビジョンバックボーンとして強力な能力を示している。
論文参考訳（メタデータ） (2023-06-30T22:05:34Z)
HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文参考訳（メタデータ） (2023-04-05T17:55:04Z)
A GPU-specialized Inference Parameter Server for Large-Scale Deep Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文参考訳（メタデータ） (2022-10-17T07:36:18Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)
Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文参考訳（メタデータ） (2021-10-16T18:13:57Z)
Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文参考訳（メタデータ） (2021-08-30T08:03:29Z)
ModelPS: An Interactive and Collaborative Platform for Editing Pre-trained Models at Scale [30.333660470820604]
共同DNNモデル編集とインテリジェントモデルサービングを可能にするローコードソリューション「ModelPS」を提案・開発します。 ModelPSソリューションは、1)DNNモデルを低コードで画像的に共有および編集するためのユーザフレンドリーなWebインターフェース、2)特定のデプロイメント要件や制約に対するモデル編集設定のカスタマイズを支援するバックエンドのモデルジェニーエンジンの2つのトランスフォーメーション機能を具現化します。
論文参考訳（メタデータ） (2021-05-18T04:51:56Z)
A Serverless Cloud-Fog Platform for DNN-Based Video Analytics with Incremental Learning [31.712746462418693]
本稿では、クライアント-フォグクラウドのシナジーをフル活用して、DNNベースのビデオ分析に役立てる最初のサーバーレスシステムを提案する。この目的のために、V(Video-Platform-as-a-Service)と呼ばれる総合的なクラウドフォッグシステムを実装した。評価の結果、Vは複数のSOTAシステムよりも優れており、高い精度を維持しながら帯域幅を最大21%削減し、RTTを最大62.5%削減し、クラウドの金融コストを最大50%削減している。
論文参考訳（メタデータ） (2021-02-05T05:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。