論文の概要: Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom
- arxiv url: http://arxiv.org/abs/2511.11703v1
- Date: Wed, 12 Nov 2025 14:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.014494
- Title: Enhancing Reinforcement Learning in 3D Environments through Semantic Segmentation: A Case Study in ViZDoom
- Title(参考訳): セマンティックセグメンテーションによる3次元環境における強化学習の強化--ViZDoomを事例として
- Authors: Hugo Huang,
- Abstract要約: 高次元感覚入力を用いた3次元環境における強化学習(RL)は2つの大きな課題をもたらす。
本稿では,RGB色画像のセマンティックセグメンテーションを用いて,SSのみとRGB+SSの2つの新しい入力表現を提案する。
実験はViZDoomのデスマッチで行われ、完全なセグメンテーション結果を用いて制御された評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning (RL) in 3D environments with high-dimensional sensory input poses two major challenges: (1) the high memory consumption induced by memory buffers required to stabilise learning, and (2) the complexity of learning in partially observable Markov Decision Processes (POMDPs). This project addresses these challenges by proposing two novel input representations: SS-only and RGB+SS, both employing semantic segmentation on RGB colour images. Experiments were conducted in deathmatches of ViZDoom, utilizing perfect segmentation results for controlled evaluation. Our results showed that SS-only was able to reduce the memory consumption of memory buffers by at least 66.6%, and up to 98.6% when a vectorisable lossless compression technique with minimal overhead such as run-length encoding is applied. Meanwhile, RGB+SS significantly enhances RL agents' performance with the additional semantic information provided. Furthermore, we explored density-based heatmapping as a tool to visualise RL agents' movement patterns and evaluate their suitability for data collection. A brief comparison with a previous approach highlights how our method overcame common pitfalls in applying semantic segmentation in 3D environments like ViZDoom.
- Abstract(参考訳): 高次元感覚入力を持つ3次元環境における強化学習(RL)は,(1)学習の安定化に必要なメモリバッファによる高メモリ消費,(2)部分的に観察可能なマルコフ決定過程(POMDP)における学習の複雑さの2つの大きな課題を提起する。
SSのみとRGB+SSという2つの新しい入力表現を提案することで,これらの課題に対処する。
実験はViZDoomのデスマッチで行われ、完全なセグメンテーション結果を用いて制御された評価を行った。
以上の結果から,メモリバッファのメモリ消費を少なくとも66.6%削減し,実行長符号化などのオーバーヘッドが最小限に抑えられたベクトル無損失圧縮手法を適用すれば,最大98.6%まで削減できることがわかった。
一方、RGB+SSは追加のセマンティック情報によってRLエージェントの性能を大幅に向上させる。
さらに,RLエージェントの動作パターンを可視化し,データ収集に適合性を評価するツールとして,密度に基づくヒートマッピングを検討した。
ViZDoomのような3D環境におけるセマンティックセグメンテーションの適用において,我々の手法が共通の落とし穴を克服する方法について,以前のアプローチとの比較を行った。
関連論文リスト
- Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - GraSS: Contrastive Learning with Gradient Guided Sampling Strategy for
Remote Sensing Image Semantic Segmentation [14.750062497258147]
RSIセマンティックセグメンテーションのためのGradient Guided Smpling Strategy (GraSS) を用いたコントラスト学習を提案する。
GraSSは2つのステージで構成されている。
GraSSは高分解能RSIセマンティックセグメンテーションにおけるSSCLの性能を効果的に向上させる。
論文 参考訳(メタデータ) (2023-06-28T01:50:46Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for
RGB-D Scene Understanding [24.93545970229774]
本論文では, RGB-D 点の対を正に含み, 負が2つのモダリティのいずれかが乱れた対を含む, 対照的な「点-ピクセル対の対」を提案する。
これにより、ハードネガティブのさらなる柔軟性が提供され、ネットワークは両方のモダリティから機能を学ぶことができます。
論文 参考訳(メタデータ) (2020-12-24T04:00:52Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。