論文の概要: Vision-Based Natural Language Scene Understanding for Autonomous Driving: An Extended Dataset and a New Model for Traffic Scene Description Generation
- arxiv url: http://arxiv.org/abs/2601.14438v1
- Date: Tue, 20 Jan 2026 19:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.140095
- Title: Vision-Based Natural Language Scene Understanding for Autonomous Driving: An Extended Dataset and a New Model for Traffic Scene Description Generation
- Title(参考訳): 自律運転のための視覚に基づく自然言語シーン理解:拡張データセットと交通シーン記述生成のための新しいモデル
- Authors: Danial Sadrian Zadeh, Otman A. Basir, Behzad Moshiri,
- Abstract要約: 本稿では,一眼レフカメライメージを簡潔な自然言語記述に変換するフレームワークを提案する。
空間的特徴抽出と意味的特徴抽出を統合し、文脈的に豊かで詳細なシーン記述を生成する。
提案モデルは高い性能を達成し,その目的を新たに開発したデータセット上で効果的に達成する。
- 参考スコア(独自算出の注目度): 1.3682156035049033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic scene understanding is essential for enabling autonomous vehicles to accurately perceive and interpret their environment, thereby ensuring safe navigation. This paper presents a novel framework that transforms a single frontal-view camera image into a concise natural language description, effectively capturing spatial layouts, semantic relationships, and driving-relevant cues. The proposed model leverages a hybrid attention mechanism to enhance spatial and semantic feature extraction and integrates these features to generate contextually rich and detailed scene descriptions. To address the limited availability of specialized datasets in this domain, a new dataset derived from the BDD100K dataset has been developed, with comprehensive guidelines provided for its construction. Furthermore, the study offers an in-depth discussion of relevant evaluation metrics, identifying the most appropriate measures for this task. Extensive quantitative evaluations using metrics such as CIDEr and SPICE, complemented by human judgment assessments, demonstrate that the proposed model achieves strong performance and effectively fulfills its intended objectives on the newly developed dataset.
- Abstract(参考訳): 交通現場の理解は、自動運転車が環境を正確に把握し、解釈し、安全なナビゲーションを確保するために不可欠である。
本稿では,一眼レフカメライメージを簡潔な自然言語記述に変換し,空間的レイアウト,意味的関係,運転関連手がかりを効果的に把握する枠組みを提案する。
提案モデルは,空間的特徴抽出と意味的特徴抽出の強化にハイブリッドアテンション機構を活用し,これらの特徴を統合し,文脈的にリッチで詳細なシーン記述を生成する。
この領域での特別なデータセットの可用性の制限に対処するため、BDD100Kデータセットから派生した新しいデータセットが開発され、その構築のための包括的なガイドラインが提供されている。
さらに、本研究は関連する評価指標について詳細な議論を行い、この課題に最も適した尺度を特定した。
CIDEr や SPICE などの指標を用いた大規模定量的評価は,提案モデルが高い性能を達成し,新たに開発されたデータセット上で意図した目的を効果的に達成できることを実証する。
関連論文リスト
- ObjectVisA-120: Object-based Visual Attention Prediction in Interactive Street-crossing Environments [15.487686125490812]
本稿では,オブジェクトに基づく注意評価に特化して,仮想空間における空間横断ナビゲーションの新たなデータセットを提案する。
提示されたデータセットのユニークさは、現実世界の環境における同等のデータ収集を極めて困難にする倫理的および安全に関する課題にある。
本稿では,オブジェクトベースの視覚的注意モデルの性能を評価するための新しい指標として,オブジェクトベース類似度(oSIM)を提案する。
論文 参考訳(メタデータ) (2026-01-19T16:48:45Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Point Cloud Based Scene Segmentation: A Survey [3.0846824529023387]
本稿では、自律運転のためのポイントクラウドセマンティックス分野における最先端手法の概要について述べる。
提案手法はプロジェクションベース,3Dベース,ハイブリッドに分類する。
また,実世界のデータに制限がある場合,研究を支援するための合成データの重要性も強調する。
論文 参考訳(メタデータ) (2025-03-16T18:02:41Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - ANNA: A Deep Learning Based Dataset in Heterogeneous Traffic for
Autonomous Vehicles [2.932123507260722]
本研究ではバングラデシュの視点で、特定されていない車両を含むカスタムビルドデータセットについて論じる。
IOU(Intersection Over Union)メトリックを用いたモデルの評価により,データセットの妥当性チェックを行った。
その結果、バングラデシュのトラフィックに関するKITTIまたはCOCOデータセットでトレーニングされたモデルよりも、カスタムデータセットでトレーニングされたモデルの方が正確で効率的であることが判明した。
論文 参考訳(メタデータ) (2024-01-21T01:14:04Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。