論文の概要: CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2402.11057v3
- Date: Wed, 12 Mar 2025 03:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.286004
- Title: CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis
- Title(参考訳): CoMapGS: 疎新な視点合成のための可視マップに基づくガウススプラッティング
- Authors: Youngkyoon Jang, Eduardo Pérez-Pellitero,
- Abstract要約: CoMapGSは、地域固有の不確実性レベルに対処するために、可視性マップをコアコンポーネントとして活用することで、新しいビュー合成を再構築する。
CoMapGS は Mip-NeRF 360 や LLFF などのデータセット上で最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 5.510379704784998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Covisibility Map-based Gaussian Splatting (CoMapGS), designed to recover underrepresented sparse regions in sparse novel view synthesis. CoMapGS addresses both high- and low-uncertainty regions by constructing covisibility maps, enhancing initial point clouds, and applying uncertainty-aware weighted supervision with a proximity classifier. Our contributions are threefold: (1) CoMapGS reframes novel view synthesis by leveraging covisibility maps as a core component to address region-specific uncertainty levels; (2) Enhanced initial point clouds for both low- and high-uncertainty regions compensate for sparse COLMAP-derived point clouds, improving reconstruction quality and benefiting few-shot 3DGS methods; (3) Adaptive supervision with covisibility-score-based weighting and proximity classification achieves consistent performance gains across scenes with various sparsity scores derived from covisibility maps. Experimental results demonstrate that CoMapGS outperforms state-of-the-art methods on datasets including Mip-NeRF 360 and LLFF.
- Abstract(参考訳): スパースなビュー合成において,疎い領域を再現するコビシビリティマップに基づくガウススプラッティング(CoMapGS)を提案する。
CoMapGSは、可視性マップの構築、初期点雲の強化、近接分類器による不確実性認識重み付き監視の適用により、高不確実性領域と低不確実性領域の両方に対処する。
CoMapGS reframes novel view synthesis by leverageing covisibility map as a core component to address region-specific uncertainty levels; (2) 疎COLMAP由来の点雲を補う低・高不確かさ領域の初期点雲の強化、再構築品質の改善、少数ショット3DGS手法の恩恵、(3) 可視性スコアに基づく重み付けと近接分類による適応的監視は、可視性マップから得られる様々な幅のスコアを持つシーン間で一貫した性能向上を実現する。
実験の結果、CoMapGSはMip-NeRF 360やLLFFなどのデータセット上で最先端の手法より優れていることが示された。
関連論文リスト
- EvoStruggle: A Dataset Capturing the Evolution of Struggle across Activities and Skill Levels [6.040360125900913]
我々は、61.68時間のビデオ録画、2,793ビデオ、5,385の注釈付き時間的闘争セグメントを含む、闘争決定のためのデータセットを収集した。
データセットには、結び目、折り紙、タングラムパズル、シャッフルカードの4つのアクティビティにグループ化された18のタスクが含まれている。
我々は、闘争決定問題を時間的行動ローカライズタスクとして定義し、開始時間と終了時間による闘争セグメントの特定と正確な位置決めに焦点をあてる。
論文 参考訳(メタデータ) (2025-10-01T18:41:10Z) - VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文 参考訳(メタデータ) (2025-08-05T03:33:24Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - 2by2: Weakly-Supervised Learning for Global Action Segmentation [4.880243880711163]
本稿では,グローバルアクションセグメンテーションの課題に対して,シンプルかつ効果的なアプローチを提案する。
我々は,グローバルな行動セグメンテーションに適した行動表現を弱教師付きで学習するために,活動ラベルを利用することを提案する。
バックボーンアーキテクチャでは、スパーストランスフォーマーをベースとしたSiameseネットワークを使用して、入力ビデオペアとして使用し、それらが同一のアクティビティに属しているかどうかを判断する。
論文 参考訳(メタデータ) (2024-12-17T11:49:36Z) - Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
学生アクションビデオデータセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成されており、15の生徒アクションが注釈付けされている。
既存のアクション検出データセットと比較して、SAVデータセットは、幅広い実際の教室シナリオを提供することで際立っている。
本手法は, 平均精度67.9%, 平均精度27.4%, 平均精度27.4%, 平均精度67.9%, 平均精度27.4%で優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - Classification Matters: Improving Video Action Detection with Class-Specific Attention [61.14469113965433]
ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
一般的な手法が、分類のための特徴をどう形成するかを分析し、アクター領域の優先順位付けを行う。
本稿では,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
論文 参考訳(メタデータ) (2024-07-29T04:43:58Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Detecting Disengagement in Virtual Learning as an Anomaly [4.706263507340607]
学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。
本稿では,仮想学習における解離を異常検出問題として定式化する。
我々は、時間畳み込みネットワークオートエンコーダ、長期記憶オートエンコーダなど、様々なオートエンコーダを設計する。
論文 参考訳(メタデータ) (2022-11-13T10:29:25Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Representation learning from videos in-the-wild: An object-centric
approach [40.46013713992305]
未修正ビデオから画像表現を学習する手法を提案する。
我々は、市販の物体検出器からの監視的損失と、各ビデオに存在するビデオショットフレームオブジェクト階層から自然に生じる自己監督的損失とを組み合わせる。
論文 参考訳(メタデータ) (2020-10-06T15:17:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。