Fugu-MT 論文翻訳(概要): CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis

論文の概要: CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis

arxiv url: http://arxiv.org/abs/2402.11057v3
Date: Wed, 12 Mar 2025 03:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.286004
Title: CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis
Title（参考訳）: CoMapGS: 疎新な視点合成のための可視マップに基づくガウススプラッティング
Authors: Youngkyoon Jang, Eduardo Pérez-Pellitero,
Abstract要約: CoMapGSは、地域固有の不確実性レベルに対処するために、可視性マップをコアコンポーネントとして活用することで、新しいビュー合成を再構築する。 CoMapGS は Mip-NeRF 360 や LLFF などのデータセット上で最先端の手法より優れていることを示す。
参考スコア（独自算出の注目度）: 5.510379704784998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Covisibility Map-based Gaussian Splatting (CoMapGS), designed to recover underrepresented sparse regions in sparse novel view synthesis. CoMapGS addresses both high- and low-uncertainty regions by constructing covisibility maps, enhancing initial point clouds, and applying uncertainty-aware weighted supervision with a proximity classifier. Our contributions are threefold: (1) CoMapGS reframes novel view synthesis by leveraging covisibility maps as a core component to address region-specific uncertainty levels; (2) Enhanced initial point clouds for both low- and high-uncertainty regions compensate for sparse COLMAP-derived point clouds, improving reconstruction quality and benefiting few-shot 3DGS methods; (3) Adaptive supervision with covisibility-score-based weighting and proximity classification achieves consistent performance gains across scenes with various sparsity scores derived from covisibility maps. Experimental results demonstrate that CoMapGS outperforms state-of-the-art methods on datasets including Mip-NeRF 360 and LLFF.
Abstract（参考訳）: スパースなビュー合成において,疎い領域を再現するコビシビリティマップに基づくガウススプラッティング(CoMapGS)を提案する。 CoMapGSは、可視性マップの構築、初期点雲の強化、近接分類器による不確実性認識重み付き監視の適用により、高不確実性領域と低不確実性領域の両方に対処する。 CoMapGS reframes novel view synthesis by leverageing covisibility map as a core component to address region-specific uncertainty levels; (2) 疎COLMAP由来の点雲を補う低・高不確かさ領域の初期点雲の強化、再構築品質の改善、少数ショット3DGS手法の恩恵、(3) 可視性スコアに基づく重み付けと近接分類による適応的監視は、可視性マップから得られる様々な幅のスコアを持つシーン間で一貫した性能向上を実現する。実験の結果、CoMapGSはMip-NeRF 360やLLFFなどのデータセット上で最先端の手法より優れていることが示された。

関連論文リスト

VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文参考訳（メタデータ） (2025-08-05T03:33:24Z)
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文参考訳（メタデータ） (2025-05-24T18:13:16Z)
2by2: Weakly-Supervised Learning for Global Action Segmentation [4.880243880711163]
本稿では,グローバルアクションセグメンテーションの課題に対して,シンプルかつ効果的なアプローチを提案する。我々は,グローバルな行動セグメンテーションに適した行動表現を弱教師付きで学習するために,活動ラベルを利用することを提案する。バックボーンアーキテクチャでは、スパーストランスフォーマーをベースとしたSiameseネットワークを使用して、入力ビデオペアとして使用し、それらが同一のアクティビティに属しているかどうかを判断する。
論文参考訳（メタデータ） (2024-12-17T11:49:36Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
5th Place Solution for YouTube-VOS Challenge 2022: Video Object Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。類似の物体は容易に混同され、小さな物体を見つけるのが困難である。本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文参考訳（メタデータ） (2022-06-20T06:14:27Z)
Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文参考訳（メタデータ） (2022-06-18T00:26:52Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。データセットは公開時に公開します。
論文参考訳（メタデータ） (2021-06-15T17:57:12Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Representation learning from videos in-the-wild: An object-centric approach [40.46013713992305]
未修正ビデオから画像表現を学習する手法を提案する。我々は、市販の物体検出器からの監視的損失と、各ビデオに存在するビデオショットフレームオブジェクト階層から自然に生じる自己監督的損失とを組み合わせる。
論文参考訳（メタデータ） (2020-10-06T15:17:45Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)
Comprehensive Instructional Video Analysis: The COIN Dataset and Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。 COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文参考訳（メタデータ） (2020-03-20T16:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。