論文の概要: Co-Win: Joint Object Detection and Instance Segmentation in LiDAR Point Clouds via Collaborative Window Processing
- arxiv url: http://arxiv.org/abs/2507.19691v1
- Date: Fri, 25 Jul 2025 22:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.967026
- Title: Co-Win: Joint Object Detection and Instance Segmentation in LiDAR Point Clouds via Collaborative Window Processing
- Title(参考訳): Co-Win: 協調ウィンドウ処理によるLiDAR点雲のオブジェクト検出とインスタンス分割
- Authors: Haichuan Li, Tomi Westerlund,
- Abstract要約: Co-Winは、ポイントクラウドエンコーディングと効率的な並列ウィンドウベースの特徴抽出を統合した、新しい鳥の目視(BEV)認識フレームワークである。
本手法は,自律運転システムにおける下流意思決定と計画の強化を可能にする,解釈可能な多種多様なインスタンス予測を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate perception and scene understanding in complex urban environments is a critical challenge for ensuring safe and efficient autonomous navigation. In this paper, we present Co-Win, a novel bird's eye view (BEV) perception framework that integrates point cloud encoding with efficient parallel window-based feature extraction to address the multi-modality inherent in environmental understanding. Our method employs a hierarchical architecture comprising a specialized encoder, a window-based backbone, and a query-based decoder head to effectively capture diverse spatial features and object relationships. Unlike prior approaches that treat perception as a simple regression task, our framework incorporates a variational approach with mask-based instance segmentation, enabling fine-grained scene decomposition and understanding. The Co-Win architecture processes point cloud data through progressive feature extraction stages, ensuring that predicted masks are both data-consistent and contextually relevant. Furthermore, our method produces interpretable and diverse instance predictions, enabling enhanced downstream decision-making and planning in autonomous driving systems.
- Abstract(参考訳): 複雑な都市環境における正確な認識とシーン理解は、安全で効率的な自律航行を保証する上で重要な課題である。
本稿では,環境理解に係わるマルチモーダル性に対処するために,ポイントクラウドエンコーディングと効率的な並列ウィンドウベースの特徴抽出を統合した新しい鳥眼ビュー(BEV)認識フレームワークであるCo-Winを提案する。
本手法では,特殊なエンコーダ,ウィンドウベースのバックボーン,クエリベースのデコーダヘッドからなる階層型アーキテクチャを用いて,多様な空間的特徴やオブジェクト関係を効果的に把握する。
認識を単純な回帰タスクとして扱う従来のアプローチとは異なり、我々のフレームワークはマスクベースのインスタンスセグメンテーションを取り入れ、きめ細かいシーンの分解と理解を可能にしている。
Co-Winアーキテクチャは、プログレッシブな特徴抽出段階を通じてクラウドデータをポイントし、予測マスクがデータ一貫性とコンテキストに関連があることを保証する。
さらに,本手法は,自律運転システムにおける下流意思決定と計画の強化を可能にする,解釈可能な多種多様なインスタンス予測を生成する。
関連論文リスト
- Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments [10.303368447554591]
本稿では,全時間点雲のシーンフローとインスタンスセグメンテーションを同時に予測するマルチタスクフレームワークを提案する。
1)静的な背景と動的オブジェクトの最初の粗いセグメンテーションを用いて、共有特徴処理モジュールを介して動きと意味情報を精製するためのコンテキスト情報を提供するマルチタスクスキームの開発,2)シーンフロー推定とインスタンスセグメンテーションの性能を高めるための損失関数セットの開発,そして,交通シーン内の静的および動的オブジェクトの空間的および時間的一貫性を確保することを支援すること,3)粗い学習スキームの開発。
論文 参考訳(メタデータ) (2025-03-19T02:43:19Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - A Spatiotemporal Correspondence Approach to Unsupervised LiDAR
Segmentation with Traffic Applications [16.260518238832887]
鍵となる考え方は、動的ポイントクラウドシーケンスの性質を活用し、非常に強力なシナリオを導入することである。
我々は、グループへのセマンティクスの最適化と、ポイントワイトテンポラルラベルを用いたクラスタリングを交互に行う。
本手法は,教師なし学習方式で識別的特徴を学習することができる。
論文 参考訳(メタデータ) (2023-08-23T21:32:46Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z) - Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。
我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。
共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-29T12:05:07Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。