論文の概要: Tile Classification Based Viewport Prediction with Multi-modal Fusion
Transformer
- arxiv url: http://arxiv.org/abs/2309.14704v2
- Date: Thu, 28 Sep 2023 08:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 10:48:07.839703
- Title: Tile Classification Based Viewport Prediction with Multi-modal Fusion
Transformer
- Title(参考訳): マルチモーダル核融合変圧器を用いたタイル分類に基づくビューポート予測
- Authors: Zhihao Zhang and Yiwei Chen and Weizhan Zhang and Caixia Yan and
Qinghua Zheng and Qi Wang and Wangdu Chen
- Abstract要約: ビューポート予測はタイルベースの360度ビデオストリーミングシステムにおいて重要な側面である。
マルチモーダルフュージョン変換器(MFTR)を用いたタイル分類に基づくビューポート予測手法を提案する。
提案したMFTRを評価するために,広く利用されている2つのPVS-HMとXu-Gazeデータセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 29.26466830437901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Viewport prediction is a crucial aspect of tile-based 360 video streaming
system. However, existing trajectory based methods lack of robustness, also
oversimplify the process of information construction and fusion between
different modality inputs, leading to the error accumulation problem. In this
paper, we propose a tile classification based viewport prediction method with
Multi-modal Fusion Transformer, namely MFTR. Specifically, MFTR utilizes
transformer-based networks to extract the long-range dependencies within each
modality, then mine intra- and inter-modality relations to capture the combined
impact of user historical inputs and video contents on future viewport
selection. In addition, MFTR categorizes future tiles into two categories: user
interested or not, and selects future viewport as the region that contains most
user interested tiles. Comparing with predicting head trajectories, choosing
future viewport based on tile's binary classification results exhibits better
robustness and interpretability. To evaluate our proposed MFTR, we conduct
extensive experiments on two widely used PVS-HM and Xu-Gaze dataset. MFTR shows
superior performance over state-of-the-art methods in terms of average
prediction accuracy and overlap ratio, also presents competitive computation
efficiency.
- Abstract(参考訳): ビューポート予測は、タイルベースの360度ビデオストリーミングシステムの重要な側面である。
しかし、既存の軌道に基づく手法ではロバスト性が欠如しており、異なるモダリティ入力間の情報構築と融合のプロセスを過大に単純化し、エラー蓄積問題に繋がる。
本稿では,マルチモーダルフュージョン変換器(MFTR)を用いたタイル分類に基づくビューポート予測手法を提案する。
具体的には、MFTRはトランスフォーマーベースのネットワークを使用して、各モード内の長距離依存関係を抽出し、その後、ユーザ履歴入力とビデオコンテンツが将来のビューポート選択に与える影響を捉えるために、モダリティ内およびモダリティ間関係をマイニングする。
さらに、mftrでは、将来のタイルを2つのカテゴリに分類している。
ヘッドトラジェクタの予測と比較すると、tileのバイナリ分類結果に基づいて将来のviewportを選択すると、ロバスト性と解釈性が向上する。
提案したMFTRを評価するために,広く利用されている2つのPVS-HMとXu-Gazeデータセットについて広範な実験を行った。
MFTRは、平均予測精度と重なり比の観点から、最先端手法よりも優れた性能を示し、競合計算効率を示す。
関連論文リスト
- Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。
現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文 参考訳(メタデータ) (2024-07-13T11:38:15Z) - BayTTA: Uncertainty-aware medical image classification with optimized test-time augmentation using Bayesian model averaging [3.1270933965398227]
本稿では,Bayesian-based TTA (Bayesian-based TTA) と呼ばれる,TTAを最適化するための新しいフレームワークを提案する。
我々は、TTAによって生成された入力データの様々なバリエーションに関連付けられた予測リストを生成する。
次に,BMAを用いて,各後部確率の重み付けした予測を組み合わせる。
論文 参考訳(メタデータ) (2024-06-25T15:24:06Z) - EMOFM: Ensemble MLP mOdel with Feature-based Mixers for Click-Through
Rate Prediction [5.983194751474721]
データセットには数百万のレコードが含まれており、レコード内の各フィールドワイド機能は、プライバシのためのハッシュされた整数で構成されている。
このタスクのために、ネットワークベースの手法のキーは、異なるフィールドにまたがるタイプワイドな特徴抽出と情報融合であるかもしれない。
フィールド/タイプワイド機能融合のためのプラグインミキサーを提案し、フィールド/タイプワイドアンサンブルモデル、すなわちEMOFMを構築する。
論文 参考訳(メタデータ) (2023-10-06T12:32:23Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - High-Performance Transformer Tracking [74.07751002861802]
本稿では,シームズ様特徴抽出バックボーンをベースとしたTransformer Tracking(TransT)手法,設計した注意に基づく融合機構,分類と回帰ヘッドを提案する。
実験の結果,TransT法とTransT-M法は7つの一般的なデータセットに対して有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-25T09:33:29Z) - Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction [74.52904110197004]
本稿では,近隣相互作用に基づくCTR予測を提案し,そのタスクを異種情報ネットワーク(HIN)設定に組み込む。
周辺地域の表現を高めるために,ノード間のトポロジカルな相互作用を4種類検討する。
本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-01-25T12:44:23Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。