論文の概要: Coarse Semantic Injection for LLM-Conditioned Structured Indoor Prediction
- arxiv url: http://arxiv.org/abs/2605.16832v1
- Date: Sat, 16 May 2026 06:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.190573
- Title: Coarse Semantic Injection for LLM-Conditioned Structured Indoor Prediction
- Title(参考訳): LLMによる内部構造予測のための粗い意味注入
- Authors: Shuliang Zhu, Tomiwa Adey, Jinjia Zhou,
- Abstract要約: 構造化復号化のためのインタフェース保存型セマンティック拡張を提案する。
キーとなるアイデアは、セマンティックエビデンスとポイントクラウド表現を関連付けることです。
スパースプーリング後のセマンティック・キューを強化するための軽量なルート付きセマンティック・シフト・モジュールを提案する。
- 参考スコア(独自算出の注目度): 5.147877071071342
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have recently been used as structured decoders for indoor understanding from 3D point-token inputs. However, point cloud encoders often under-represent thin structural elements such as doors and windows after voxelization and sparse pooling, and may miss individual furniture instances in cluttered scenes. We propose an interface-preserving semantic augmentation for LLM-conditioned structured decoding. The key idea is to associate semantic evidence with the point-cloud representation, reduce it to a coarse four-group code (furniture, walls, openings, and others), and encode it as an RGBB point interface: red for furniture, green for walls, blue for openings, and black for others, where RGBB denotes four semantic color states represented in three RGB channels rather than an additional fourth channel. This semantic color code is appended to the original raw point attributes before tokenization, so geometry and semantics share the same sparse tokenization path while the downstream language model decoder and output serialization remain unchanged. We further introduce a lightweight routed semantic shift module, with an auxiliary head used only for training-time ratio/budget regularization and analysis, to strengthen semantic cues after sparse pooling. The overall pipeline can use RGB-derived semantic evidence. Under these controlled semantic-source settings, the reported metrics improve across Structured3D, the SpatialLM dataset, and ARKitScenes, especially for opening localization and per-instance furniture detection in cluttered scenes. Ablations clarify the roles of semantic source, color coding, token fusion, and shift injection, while also showing that color/entropy effects remain nontrivial.
- Abstract(参考訳): 大規模言語モデル (LLM) は3次元ポイントトーケン入力からの屋内理解のための構造化デコーダとして最近使用されている。
しかし、点雲エンコーダは、酸化やスパースプール後のドアや窓などの薄い構造要素を低く表現し、散らばったシーンで個々の家具のインスタンスを見逃してしまうことがある。
LLM条件付き構造化デコードのためのインタフェース保存型セマンティック拡張を提案する。
キーとなるアイデアは、セマンティックエビデンスをポイントクラウド表現に関連付け、それを粗い4つのグループコード(家具、壁、開口など)に還元し、それをRGBBポイントインターフェースとしてエンコードすることである。
このセマンティックカラーコードは、トークン化前の元の原点属性に付加されるので、下流言語モデルデコーダと出力シリアライゼーションは変わらないが、幾何とセマンティクスは同じスパーストークン化パスを共有している。
さらに、スパースプーリング後のセマンティックキューを強化するために、トレーニング時間比/予算正規化と分析にのみ使用される補助ヘッドを備えた軽量なルート付きセマンティックシフトモジュールを導入する。
パイプライン全体は、RGB由来のセマンティックエビデンスを使用することができる。
これらの制御されたセマンティックソース設定の下で、報告されたメトリクスはStructured3D、SpatialLMデータセット、ARKitScenesで改善され、特に散らかったシーンにおけるローカライゼーションとインスタンスごとの家具検出が可能である。
アブレーションは、セマンティックソース、カラーコーディング、トークン融合、シフトインジェクションの役割を明らかにし、色/エントロピー効果が非自明であることも示している。
関連論文リスト
- Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection [23.34626996348395]
Group3Dはマルチビューオープンな3D検出フレームワークである。
セマンティック制約を直接インスタンス構築プロセスに統合する。
Group3Dは、多視点オープン3D検出において最先端の性能を達成する。
論文 参考訳(メタデータ) (2026-03-23T13:01:14Z) - LoST: Level of Semantics Tokenization for 3D Shapes [50.847769883816085]
State-of-the-artメソッドは、もともとレンダリングと圧縮のために設計された幾何学的なレベル・オブ・ディテール(LoD)階層に依存している。
本稿では,初期接頭辞が完全かつ可塑性な形状をデコードするように,サリエンスを指示するレベル・オブ・セマンティックス・トークン化(LoST)を提案する。
LoSTはSOTA再構成を実現し、幾何的および意味的再構成のメトリクスにおいて、従来のLoDベースの3次元形状トークン化器を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2026-03-18T17:56:06Z) - BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models [34.68686478533657]
BBQは,数値境界ボックスとRGB三重項を統一された構造化テキストフレームワーク内で条件付ける大規模テキスト・ツー・イメージモデルである。
BBQは強力なボックスアライメントを実現し、最先端のベースラインよりもRGB色の忠実度を向上させる。
論文 参考訳(メタデータ) (2026-02-24T08:22:42Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - Self-Supervised and Generalizable Tokenization for CLIP-Based 3D Understanding [87.68271178167373]
凍結したCLIPバックボーンを用いたスケール不変表現学習のためのユニバーサル3Dトークン化器を提案する。
S4Tokenは、シーンスケールに関係なくセマンティックインフォームドトークンを生成するトークン化パイプラインである。
論文 参考訳(メタデータ) (2025-05-24T18:26:30Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models [15.231177830711077]
セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
論文 参考訳(メタデータ) (2023-11-30T14:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。