Fugu-MT 論文翻訳(概要): Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

論文の概要: Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

arxiv url: http://arxiv.org/abs/2603.05507v1
Date: Thu, 05 Mar 2026 18:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.397198
Title: Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups
Title（参考訳）: スパースマルチカメラセットアップにおけるリアルタイム3次元ストリーミングのためのトランスフォーマーベースのインペインティング
Authors: Leif Van Holland, Domenic Zingsheim, Mana Takhsha, Hannah Dröge, Patrick Stotko, Markus Plack, Reinhard Klein,
Abstract要約: 複数のカメラからの高品質な3Dストリーミングは多くのAR/VRアプリケーションにおいて没入感のある体験に不可欠である。既存のアプローチは通常、穴埋めのための単純なテクスチャに依存しており、不整合や視覚的アーティファクトをもたらす可能性がある。本稿では、新しいビューレンダリングの後、画像ベースの後処理ステップとして、基礎となる表現とは無関係に、新しいアプリケーションターゲットのインペイント手法を提案する。我々は、同じリアルタイム制約の下で、最先端の塗装技術に対する我々のアプローチを評価し、我々のモデルが品質とスピードの最良のトレードオフを達成することを実証する。
参考スコア（独自算出の注目度）: 5.442308724054687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-quality 3D streaming from multiple cameras is crucial for immersive experiences in many AR/VR applications. The limited number of views - often due to real-time constraints - leads to missing information and incomplete surfaces in the rendered images. Existing approaches typically rely on simple heuristics for the hole filling, which can result in inconsistencies or visual artifacts. We propose to complete the missing textures using a novel, application-targeted inpainting method independent of the underlying representation as an image-based post-processing step after the novel view rendering. The method is designed as a standalone module compatible with any calibrated multi-camera system. For this we introduce a multi-view aware, transformer-based network architecture using spatio-temporal embeddings to ensure consistency across frames while preserving fine details. Additionally, our resolution-independent design allows adaptation to different camera setups, while an adaptive patch selection strategy balances inference speed and quality, allowing real-time performance. We evaluate our approach against state-of-the-art inpainting techniques under the same real-time constraints and demonstrate that our model achieves the best trade-off between quality and speed, outperforming competitors in both image and video-based metrics.
Abstract（参考訳）: 複数のカメラからの高品質な3Dストリーミングは多くのAR/VRアプリケーションにおいて没入感のある体験に不可欠である。ビューの限られた数(多くの場合、リアルタイムな制約のため)は、レンダリングされた画像に不足した情報と不完全な表面をもたらす。既存のアプローチは通常、穴埋めのために単純なヒューリスティックに依存しており、矛盾や視覚的アーティファクトをもたらす可能性がある。本稿では,新しいビューレンダリング後のイメージベースの後処理ステップとして,基礎となる表現とは無関係に,新しいアプリケーションターゲットのインペイント手法を用いて,欠落したテクスチャを補完することを提案する。この方法は、任意のキャリブレーションされたマルチカメラシステムと互換性のあるスタンドアロンモジュールとして設計されている。そこで我々は,フレーム間の整合性を確保するために,時空間埋め込みを用いたマルチビュー対応トランスフォーマーネットワークアーキテクチャを提案する。さらに、解像度に依存しない設計では、異なるカメラ設定への適応が可能であり、適応パッチ選択戦略は推論速度と品質のバランスを保ち、リアルタイムのパフォーマンスを実現する。我々は、同じリアルタイム制約の下で、最先端の塗装技術に対する我々のアプローチを評価し、我々のモデルが品質とスピードの最良のトレードオフを達成し、画像とビデオベースのメトリクスの両方において競合より優れていることを実証した。

関連論文リスト

ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文参考訳（メタデータ） (2026-01-12T13:44:14Z)
MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds [19.94963757122156]
多視点逆レンダリングは、幾何、材料、照明を複数の視点で一貫して回復することを目的としている。本稿では,RGB画像から空間変化アルベド,金属,粗さ,拡散シェーディング,表面正規度を直接予測するフィードフォワード多視点逆レンダリングフレームワークを提案する。提案手法は,多視点整合性,物質的および正規推定品質,実世界の画像への一般化という観点から,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-12-24T06:59:29Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文参考訳（メタデータ） (2024-09-20T15:45:13Z)
View-consistent Object Removal in Radiance Fields [14.195400035176815]
レーダー場(RF)は3次元シーン表現にとって重要な技術である。現在の方法はフレーム単位の2Dイメージの描画に依存しており、ビュー間の一貫性の維持に失敗することが多い。単一参照画像のみの塗布を必要とすることで、一貫性を著しく向上する新しいRF編集パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-04T17:57:23Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文参考訳（メタデータ） (2021-05-01T14:32:13Z)
Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。 TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。 TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2021-02-09T19:49:33Z)
Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。 3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2020-07-03T02:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。