論文の概要: From Scan to Action: Leveraging Realistic Scans for Embodied Scene Understanding
- arxiv url: http://arxiv.org/abs/2507.17585v1
- Date: Wed, 23 Jul 2025 15:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.054391
- Title: From Scan to Action: Leveraging Realistic Scans for Embodied Scene Understanding
- Title(参考訳): スキャンからアクションへ:現実的なスコープを活用して身体的場面を理解する
- Authors: Anna-Maria Halacheva, Jan-Nico Zaech, Sombit Dey, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: 現実世界の3Dシーンレベルのスキャンはリアリズムを提供し、下流アプリケーションに対してより優れた現実世界の一般化を可能にする。
本稿では,これらのスキャンとそのアノテーションを効果的に活用するための方法論を示す。
アプリケーション固有のUSDフレーバーを用いた統一アノテーション統合を提案する。
- 参考スコア(独自算出の注目度): 53.79642926720932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world 3D scene-level scans offer realism and can enable better real-world generalizability for downstream applications. However, challenges such as data volume, diverse annotation formats, and tool compatibility limit their use. This paper demonstrates a methodology to effectively leverage these scans and their annotations. We propose a unified annotation integration using USD, with application-specific USD flavors. We identify challenges in utilizing holistic real-world scan datasets and present mitigation strategies. The efficacy of our approach is demonstrated through two downstream applications: LLM-based scene editing, enabling effective LLM understanding and adaptation of the data (80% success), and robotic simulation, achieving an 87% success rate in policy learning.
- Abstract(参考訳): 現実世界の3Dシーンレベルのスキャンはリアリズムを提供し、下流アプリケーションに対してより優れた現実世界の一般化を可能にする。
しかし、データボリューム、多様なアノテーションフォーマット、ツール互換性といった課題は使用を制限する。
本稿では,これらのスキャンとそのアノテーションを効果的に活用するための方法論を示す。
アプリケーション固有のUSDフレーバーを用いた統一アノテーション統合を提案する。
我々は、全体論的実世界のスキャンデータセットを利用する際の課題を特定し、緩和戦略を提示する。
提案手法の有効性は, LLMに基づくシーン編集, 効果的なLLM理解とデータ適応(80%の成功), およびロボットシミュレーションにより実証され, 政策学習において87%の成功率を達成した。
関連論文リスト
- Hidden in Plain Sight: Evaluation of the Deception Detection Capabilities of LLMs in Multimodal Settings [14.065907685322097]
本稿では,Large Language Model (LLM) とLarge Multimodal Model (LMM) の自動偽造検出機能について,包括的に評価する。
実生活トライアル面接(RLTD)、対人的シナリオ(MU3D)、詐欺的レビュー(OpSpam)の3つの異なるデータセットを用いて、オープンソースおよび商用LLMの性能を評価する。
以上の結果から,LMMはクロスモーダルな手法を十分に活用するのに苦戦しているのに対し,微調整のLLMはテキスト偽造検出タスクにおいて最先端のパフォーマンスを実現することが示唆された。
論文 参考訳(メタデータ) (2025-06-11T06:12:50Z) - How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM [39.65493154187172]
大規模言語モデル(LLM)は、3D理解タスクを強化するために利用されており、従来のコンピュータビジョン手法を超越する可能性を示している。
本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
論文 参考訳(メタデータ) (2025-04-08T08:11:39Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Text-Enhanced Zero-Shot Action Recognition: A training-free approach [13.074211474150914]
ゼロショット映像行動認識のためのテキスト強調行動認識(TEAR)を提案する。
TEARはトレーニングフリーであり、トレーニングデータや広範な計算資源の可用性を必要としない。
論文 参考訳(メタデータ) (2024-08-29T10:20:05Z) - Real-GDSR: Real-World Guided DSM Super-Resolution via Edge-Enhancing Residual Network [2.3020018305241337]
低解像度デジタルサーフェスモデル(DSM)は、ノイズ、センサーの制限、データ取得条件の影響を受けやすい特性を特徴とする。
このため、合成データで訓練された超解像モデルは、実データでは効果的に機能しない。
本稿では,REAL-GDSRと呼ばれる実世界のDSM超解像の複雑さに対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T07:24:10Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。