論文の概要: ExPrIS: Knowledge-Level Expectations as Priors for Object Interpretation from Sensor Data
- arxiv url: http://arxiv.org/abs/2601.15025v1
- Date: Wed, 21 Jan 2026 14:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.393087
- Title: ExPrIS: Knowledge-Level Expectations as Priors for Object Interpretation from Sensor Data
- Title(参考訳): ExPrIS:センサデータからのオブジェクト解釈の先駆者としての知識レベル期待
- Authors: Marian Renz, Martin Günther, Felix Igelbrink, Oscar Lima, Martin Atzmueller,
- Abstract要約: ExPrISプロジェクトは、センサデータからオブジェクトの解釈を改善するために、知識レベルの期待がどのように役立つかを調査する。
我々は、過去の観測からの文脈的先行と、ConceptNetのような外部グラフからのセマンティック知識という、2つの情報源からの期待を統合する。
この方法は静的なフレーム・バイ・フレーム解析を超えて、時間とともにシーン理解の堅牢性と一貫性を高める。
- 参考スコア(独自算出の注目度): 1.0801606421449652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep learning has significantly advanced robotic object recognition, purely data-driven approaches often lack semantic consistency and fail to leverage valuable, pre-existing knowledge about the environment. This report presents the ExPrIS project, which addresses this challenge by investigating how knowledge-level expectations can serve as to improve object interpretation from sensor data. Our approach is based on the incremental construction of a 3D Semantic Scene Graph (3DSSG). We integrate expectations from two sources: contextual priors from past observations and semantic knowledge from external graphs like ConceptNet. These are embedded into a heterogeneous Graph Neural Network (GNN) to create an expectation-biased inference process. This method moves beyond static, frame-by-frame analysis to enhance the robustness and consistency of scene understanding over time. The report details this architecture, its evaluation, and outlines its planned integration on a mobile robotic platform.
- Abstract(参考訳): ディープラーニングはロボットオブジェクト認識を著しく進歩させたが、純粋にデータ駆動型アプローチでは意味論的一貫性が欠如し、環境に関する価値ある既存の知識を活用できないことが多い。
本報告では,センサデータからオブジェクトの解釈を改善するために,知識レベルの期待がどう役立つかを検討することで,この課題に対処するExPrISプロジェクトについて述べる。
提案手法は,3次元セマンティックシーングラフ(DSSG)の漸進的な構築に基づいている。
我々は、過去の観測からの文脈的先行と、ConceptNetのような外部グラフからのセマンティック知識という、2つの情報源からの期待を統合する。
これらは、予測バイアス推論プロセスを作成するために、異種グラフニューラルネットワーク(GNN)に組み込まれる。
この方法は静的なフレーム・バイ・フレーム解析を超えて、時間とともにシーン理解の堅牢性と一貫性を高める。
報告書は、このアーキテクチャとその評価を詳述し、モバイルロボットプラットフォームへの統合計画の概要を説明している。
関連論文リスト
- Online Segment Any 3D Thing as Instance Tracking [60.20416622842975]
オンライン3Dセグメンテーションをインスタンス追跡問題として再認識する(AutoSeg3D)。
視覚基礎モデルに固有の断片化問題を緩和するために,空間整合性学習を導入する。
ScanNet200上でESAMを2.8 AP上回る新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-12-08T14:48:51Z) - Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction [3.7471945679132594]
3Dセマンティックシーングラフ予測は、3Dシーンにおけるオブジェクトとその意味的関係を検出することを目的としている。
これまでの研究はデータセットの制限に対処し、Open-Vocabulary設定など、さまざまなアプローチを模索してきた。
本研究では,オブジェクトの特徴の質が全体のシーングラフの精度を決定する上で重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2025-10-06T11:33:09Z) - IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。
IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文 参考訳(メタデータ) (2025-06-29T17:02:57Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Are We Ready for Real-Time LiDAR Semantic Segmentation in Autonomous Driving? [42.348499880894686]
シーンセマンティックセグメンテーションは、3次元空間データを専門のディープニューラルネットワークと直接統合することで実現できる。
本研究では, NVIDIA Jetson プラットフォーム上でのリソース制約推論の性能と性能を解析し, 様々な3次元セマンティックセマンティックセマンティクス手法について検討する。
論文 参考訳(メタデータ) (2024-10-10T20:47:33Z) - FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction [17.367277970910813]
人間は、常識の知識を視覚や触覚からの感覚入力と密接に統合し、周囲を理解する。
FusionSenseは、ロボットが視覚や触覚センサーから高度に疎らな観察を行い、基礎モデルから事前情報を融合することのできる、新しい3D再構成フレームワークである。
論文 参考訳(メタデータ) (2024-10-10T18:07:07Z) - On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。