Fugu-MT 論文翻訳(概要): A Multi-user Oriented Live Free-viewpoint Video Streaming System Based On View Interpolation

論文の概要: A Multi-user Oriented Live Free-viewpoint Video Streaming System Based On View Interpolation

arxiv url: http://arxiv.org/abs/2112.10603v2
Date: Wed, 22 Dec 2021 06:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-23 12:51:42.507363
Title: A Multi-user Oriented Live Free-viewpoint Video Streaming System Based On View Interpolation
Title（参考訳）: ビュー補間に基づくマルチユーザ指向ライブ自由視点ビデオストリーミングシステム
Authors: Jingchuan Hu, Shuai Guo, Kai Zhou, Yu Dong, Jun Xu and Li Song
Abstract要約: リアルタイムに高密度な仮想ビューを合成するためのCNNベースのビューアルゴリズムを提案する。また,マルチユーザ指向のストリーミング戦略を備えた,エンドツーエンドのライブビューポイントシステムを構築した。
参考スコア（独自算出の注目度）: 15.575219833681635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As an important application form of immersive multimedia services, free-viewpoint video(FVV) enables users with great immersive experience by strong interaction. However, the computational complexity of virtual view synthesis algorithms poses a significant challenge to the real-time performance of an FVV system. Furthermore, the individuality of user interaction makes it difficult to serve multiple users simultaneously for a system with conventional architecture. In this paper, we novelly introduce a CNN-based view interpolation algorithm to synthesis dense virtual views in real time. Based on this, we also build an end-to-end live free-viewpoint system with a multi-user oriented streaming strategy. Our system can utilize a single edge server to serve multiple users at the same time without having to bring a large view synthesis load on the client side. We analyze the whole system and show that our approaches give the user a pleasant immersive experience, in terms of both visual quality and latency.
Abstract（参考訳）: 没入型マルチメディアサービスの重要な応用形態として、fvv(free-viewpoint video)は強力なインタラクションによって没入型体験をユーザに提供する。しかし、仮想ビュー合成アルゴリズムの計算複雑性は、FVVシステムのリアルタイム性能に重大な課題をもたらす。さらに、ユーザインタラクションの個性は、従来のアーキテクチャのシステムに対して、複数のユーザを同時に提供するのを困難にしている。本稿では,CNNを用いた高密度仮想ビューをリアルタイムに合成するビュー補間アルゴリズムを提案する。これに基づいて,マルチユーザ指向のストリーミング戦略を備えた,エンドツーエンドのライブビューポイントシステムを構築した。本システムでは,クライアント側で大規模なビュー合成負荷を発生させることなく,単一エッジサーバを複数のユーザに対して同時に提供することが可能である。システム全体を解析し、私たちのアプローチが視覚的品質とレイテンシの両方の観点から、ユーザに対して快適な没入感を与えることを示す。

関連論文リスト

Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文参考訳（メタデータ） (2025-03-09T06:14:17Z)
AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文参考訳（メタデータ） (2025-01-14T03:20:20Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。 MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文参考訳（メタデータ） (2024-11-18T16:33:52Z)
A Monocular SLAM-based Multi-User Positioning System with Image Occlusion in Augmented Reality [2.8155732302036176]
単眼RGB画像を用いたORB-SLAM2に基づくマルチユーザローカライゼーションシステムを提案する。このシステムはユーザのローカライゼーションを行うだけでなく、共通の仮想オブジェクトを平面上に配置し、各ユーザがオブジェクトの適切な視点ビューを保持する。位置情報は、特定のユーザの空間における他のユーザの相対的な位置と動きを提示する中央サーバを介して、ユーザのARデバイス間で渡される。
論文参考訳（メタデータ） (2024-11-17T02:39:30Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Generalized User Representations for Transfer Learning [6.953653891411339]
本稿では,大規模レコメンデーションシステムにおけるユーザ表現のための新しいフレームワークを提案する。提案手法は,表現学習と伝達学習を組み合わせた2段階の手法を用いる。提案するフレームワークは,代替手法と比較して,インフラコストを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-03-01T15:05:21Z)
Explore Synergistic Interaction Across Frames for Interactive Video Object Segmentation [70.93295323156876]
複数のフレームを同時に受け入れることのできるフレームワークを提案し、フレーム間の相乗的相互作用(SIAF)を探索する。我々のSwinB-SIAFはDAVIS 2017(89.6%、J&F@60)で最先端のパフォーマンスを達成した我々のR50-SIAFは、挑戦的なマルチオブジェクトシナリオの下で、最先端の競合製品よりも3倍高速です。
論文参考訳（メタデータ） (2024-01-23T04:19:15Z)
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文参考訳（メタデータ） (2023-11-14T10:11:36Z)
Virtual Avatar Stream: a cost-down approach to the Metaverse experience [0.0]
このプロジェクトの目的は、Web技術を活用した没入型メタバース体験へのアクセス可能なエントリポイントを提供することである。開発したプラットフォームでは、Webブラウザ、マイク、ウェブカメラのみを使用してレンダリングされたアバターを利用できるようになる。
論文参考訳（メタデータ） (2023-04-04T01:34:23Z)
AEGIS: A real-time multimodal augmented reality computer vision based system to assist facial expression recognition for individuals with autism spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文参考訳（メタデータ） (2020-10-22T17:20:38Z)
FVV Live: A real-time free-viewpoint video system with consumer electronics hardware [1.1403672224109256]
FVV Liveは、低コストでリアルタイムな操作のために設計された、新しいエンドツーエンドの無料視点ビデオシステムである。このシステムは、コンシューマグレードのカメラとハードウェアを使って高品質のフリー視点ビデオを提供するように設計されている。
論文参考訳（メタデータ） (2020-07-01T15:40:28Z)
Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-29T17:50:23Z)
Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文参考訳（メタデータ） (2020-04-02T02:46:44Z)
Using CNNs For Users Segmentation In Video See-Through Augmented Virtuality [0.0]
本稿では,ユーザ・セルフ・ボディや他の参加者をヘッドマウント型ビデオ・シースルー拡張仮想性シナリオに統合するためのディープラーニング技術の使用に関する予備的な結果を示す。本稿では,ユーザの視点で取得した立体RGBビデオストリームにおいて,ユーザの身体のリアルタイムなセマンティックセマンティックセグメンテーションに畳み込みニューラルネットワークを用いることを提案する。
論文参考訳（メタデータ） (2020-01-02T15:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。