論文の概要: Next Best View Selections for Semantic and Dynamic 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2512.22771v1
- Date: Sun, 28 Dec 2025 04:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.214967
- Title: Next Best View Selections for Semantic and Dynamic 3D Gaussian Splatting
- Title(参考訳): セマンティックおよび動的3次元ガウススプラッティングのための次のベストビュー選択
- Authors: Yiqian Li, Wen Jiang, Kostas Daniilidis,
- Abstract要約: 我々は、ビュー選択問題をアクティブな学習問題として定式化する。
そこで本研究では,候補視点の有意性を定量化する能動的学習アルゴリズムを提案する。
本手法は,大規模静的画像と動的ビデオデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 33.577982244470796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding semantics and dynamics has been crucial for embodied agents in various tasks. Both tasks have much more data redundancy than the static scene understanding task. We formulate the view selection problem as an active learning problem, where the goal is to prioritize frames that provide the greatest information gain for model training. To this end, we propose an active learning algorithm with Fisher Information that quantifies the informativeness of candidate views with respect to both semantic Gaussian parameters and deformation networks. This formulation allows our method to jointly handle semantic reasoning and dynamic scene modeling, providing a principled alternative to heuristic or random strategies. We evaluate our method on large-scale static images and dynamic video datasets by selecting informative frames from multi-camera setups. Experimental results demonstrate that our approach consistently improves rendering quality and semantic segmentation performance, outperforming baseline methods based on random selection and uncertainty-based heuristics.
- Abstract(参考訳): セマンティクスとダイナミクスを理解することは、様々なタスクにおけるエージェントの具体化に不可欠である。
どちらのタスクも静的シーン理解タスクよりもデータ冗長性が高い。
ビュー選択問題をアクティブな学習問題として定式化し、モデルトレーニングにおいて最も優れた情報ゲインを提供するフレームの優先順位付けを目標とする。
そこで本研究では,意味的ガウスパラメータと変形ネットワークの両方に関して,候補視点の有意性を定量化する,フィッシャー情報を用いた能動的学習アルゴリズムを提案する。
この定式化により,本手法は意味論的推論と動的シーンモデリングを共同で扱えるようになり,ヒューリスティック戦略やランダム戦略の代替となる。
マルチカメラ設定から情報フレームを選択することにより,大規模静的画像と動的ビデオデータセットについて評価を行った。
実験の結果,提案手法はレンダリング品質とセマンティックセグメンテーション性能を常に改善し,ランダム選択と不確実性に基づくヒューリスティックスに基づくベースライン手法よりも優れていた。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。
本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-29T05:51:44Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。