論文の概要: Adaptive Keyframe Selection for Scalable 3D Scene Reconstruction in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2510.23928v1
- Date: Mon, 27 Oct 2025 23:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.17177
- Title: Adaptive Keyframe Selection for Scalable 3D Scene Reconstruction in Dynamic Environments
- Title(参考訳): 動的環境におけるスケーラブルな3次元シーン再構成のための適応的鍵フレーム選択
- Authors: Raman Jha, Yang Zhou, Giuseppe Loianno,
- Abstract要約: 動的環境における3次元シーン再構成の改善のための適応的選択法を提案する。
提案手法は,エラーベース選択モジュールとモーメントベース更新モジュールの2つの相補モジュールを統合する。
本稿では,最新の3D再構成ネットワークであるSpann3rとCUT3Rについて,適応選択モジュールの評価を行った。
- 参考スコア(独自算出の注目度): 10.967576917866408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an adaptive keyframe selection method for improved 3D scene reconstruction in dynamic environments. The proposed method integrates two complementary modules: an error-based selection module utilizing photometric and structural similarity (SSIM) errors, and a momentum-based update module that dynamically adjusts keyframe selection thresholds according to scene motion dynamics. By dynamically curating the most informative frames, our approach addresses a key data bottleneck in real-time perception. This allows for the creation of high-quality 3D world representations from a compressed data stream, a critical step towards scalable robot learning and deployment in complex, dynamic environments. Experimental results demonstrate significant improvements over traditional static keyframe selection strategies, such as fixed temporal intervals or uniform frame skipping. These findings highlight a meaningful advancement toward adaptive perception systems that can dynamically respond to complex and evolving visual scenes. We evaluate our proposed adaptive keyframe selection module on two recent state-of-the-art 3D reconstruction networks, Spann3r and CUT3R, and observe consistent improvements in reconstruction quality across both frameworks. Furthermore, an extensive ablation study confirms the effectiveness of each individual component in our method, underlining their contribution to the overall performance gains.
- Abstract(参考訳): 本稿では,動的環境下での3次元シーン再構築のための適応的キーフレーム選択法を提案する。
提案手法は,光度・構造類似度(SSIM)誤差を利用したエラーベース選択モジュールと,シーンの動特性に応じてキーフレーム選択閾値を動的に調整するモーメントベースの更新モジュールの2つの相補モジュールを統合する。
最も情報性の高いフレームを動的にキュレートすることで、我々のアプローチはリアルタイム知覚における重要なデータボトルネックに対処する。
これにより、圧縮されたデータストリームから高品質な3D世界表現を作成できるようになる。
実験結果は、固定時間間隔や一様フレームスキップなど、従来の静的キーフレーム選択戦略よりも大幅に改善されたことを示す。
これらの知見は、複雑で進化する視覚シーンに動的に反応できる適応認識システムへの有意義な進歩を示す。
提案する適応型キーフレーム選択モジュールを,最近の2つの3D再構成ネットワークであるSpann3rとCUT3Rで評価し,両フレームワーク間の再構成品質の一貫性を検証した。
さらに,本手法における各成分の有効性を検証し,総合的な性能向上への寄与を概説した。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。
本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。
その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文 参考訳(メタデータ) (2025-08-14T17:59:31Z) - Laplacian Analysis Meets Dynamics Modelling: Gaussian Splatting for 4D Reconstruction [9.911802466255653]
本稿では,ハイブリッドな明示的関数を持つ動的3DGSフレームワークを提案する。
本手法は, 複雑な動的シーンを再構築する際の最先端性能を実証し, 再現精度を向上する。
論文 参考訳(メタデータ) (2025-08-07T01:39:29Z) - SD-GS: Structured Deformable 3D Gaussians for Efficient Dynamic Scene Reconstruction [5.818188539758898]
複雑な動的シーン再構成のためのコンパクトで効率的な動的スプレイティングフレームワークSD-GSを提案する。
また,過度に再構成された高流動領域のアンカーを適応的に成長させる変形認識型密度化戦略を提案する。
実験の結果,SD-GSはモデルサイズを60%削減し,FPSを100%改善することがわかった。
論文 参考訳(メタデータ) (2025-07-10T06:35:03Z) - Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion [43.59385149982744]
単一フレームのポーズ推定は大きな進歩を遂げているが、複雑な連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
時間情報を統合することでViTPoseモデルを拡張する新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
論文 参考訳(メタデータ) (2025-01-14T21:34:34Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。
複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。