論文の概要: Human-in-the-Loop Local Corrections of 3D Scene Layouts via Infilling
- arxiv url: http://arxiv.org/abs/2503.11806v1
- Date: Fri, 14 Mar 2025 18:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:46.323712
- Title: Human-in-the-Loop Local Corrections of 3D Scene Layouts via Infilling
- Title(参考訳): 埋め込みによる3次元シーンレイアウトの局所補正
- Authors: Christopher Xie, Armen Avetisyan, Henry Howard-Jenkins, Yawar Siddiqui, Julian Straub, Richard Newcombe, Vasileios Balntas, Jakob Engel,
- Abstract要約: 我々は,エゴセントリックな視点から人間からのフィードバックを用いた3次元シーンレイアウトを推定するための,新しい人間-イン・ザ・ループアプローチを提案する。
本研究では,新しい局所修正タスクを導入し,ユーザが局所的誤りを識別し,モデルに自動的に修正を促す手法を提案する。
本システムでは,最終改良レイアウトをトレーニング分布から切り離し,複雑なレイアウトのより正確なモデリングを可能にする。
- 参考スコア(独自算出の注目度): 10.12006514895929
- License:
- Abstract: We present a novel human-in-the-loop approach to estimate 3D scene layout that uses human feedback from an egocentric standpoint. We study this approach through introduction of a novel local correction task, where users identify local errors and prompt a model to automatically correct them. Building on SceneScript, a state-of-the-art framework for 3D scene layout estimation that leverages structured language, we propose a solution that structures this problem as "infilling", a task studied in natural language processing. We train a multi-task version of SceneScript that maintains performance on global predictions while significantly improving its local correction ability. We integrate this into a human-in-the-loop system, enabling a user to iteratively refine scene layout estimates via a low-friction "one-click fix'' workflow. Our system enables the final refined layout to diverge from the training distribution, allowing for more accurate modelling of complex layouts.
- Abstract(参考訳): 我々は,エゴセントリックな視点から人間からのフィードバックを用いた3次元シーンレイアウトを推定するための,新しい人間-イン・ザ・ループアプローチを提案する。
本研究では,新しい局所修正タスクを導入し,ユーザが局所的誤りを識別し,モデルに自動的に修正を促す手法を提案する。
構造化言語を利用した3次元シーンレイアウト推定のための最先端フレームワークであるSceneScript上に構築し,この問題を自然言語処理の課題である「埋め込み」として構造化する手法を提案する。
我々はSceneScriptのマルチタスクバージョンをトレーニングし、グローバルな予測の性能を維持しながら、その局所的な補正能力を大幅に改善する。
我々はこれをヒューマン・イン・ザ・ループシステムに統合し、ユーザーは低フリクションの「ワンクリック修正」ワークフローを通じてシーンレイアウト推定を反復的に洗練することができる。
本システムでは,最終改良レイアウトをトレーニング分布から切り離し,複雑なレイアウトのより正確なモデリングを可能にする。
関連論文リスト
- LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。
本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文 参考訳(メタデータ) (2024-03-19T18:01:29Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Continual Learning for Image-Based Camera Localization [14.47046413243358]
連続学習環境における視覚的局所化の問題について検討する。
以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。
本稿では,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適応させる,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-08-20T11:18:05Z) - RetrievalFuse: Neural 3D Scene Reconstruction with a Database [34.44425679892233]
トレーニングデータベースからシーンジオメトリを直接活用する新しい手法を紹介します。
まず,シーンデータベースから上位k個のボリュームチャンクを検索して構築した3次元シーンの初期推定値の合成を学習する。
これらの候補は最終シーン生成に洗練され、候補から最も一貫性のある幾何集合を効果的に選択できる注意に基づく改良がなされる。
本研究では,3次元超解像と疎点雲表面再構成のためのデータベースを用いて,神経シーンの再構成を実証する。
論文 参考訳(メタデータ) (2021-03-31T18:00:09Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。