論文の概要: Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2504.10873v1
- Date: Tue, 15 Apr 2025 05:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:08.212684
- Title: Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous Vehicles
- Title(参考訳): 歩行者のダイナミックジェスチャの理解と解釈は可能か? : パイロットデータセットと協調自律走行車における非言語コマンドの探索
- Authors: Tonko E. W. Bossen, Andreas Møgelmose, Ross Greer,
- Abstract要約: 自動運転においては、交通ジェスチャー(TG)を正しく解釈することが不可欠である
本研究では,ゼロショット解釈における最先端ビジョン言語モデル(VLM)の機能について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In autonomous driving, it is crucial to correctly interpret traffic gestures (TGs), such as those of an authority figure providing orders or instructions, or a pedestrian signaling the driver, to ensure a safe and pleasant traffic environment for all road users. This study investigates the capabilities of state-of-the-art vision-language models (VLMs) in zero-shot interpretation, focusing on their ability to caption and classify human gestures in traffic contexts. We create and publicly share two custom datasets with varying formal and informal TGs, such as 'Stop', 'Reverse', 'Hail', etc. The datasets are "Acted TG (ATG)" and "Instructive TG In-The-Wild (ITGI)". They are annotated with natural language, describing the pedestrian's body position and gesture. We evaluate models using three methods utilizing expert-generated captions as baseline and control: (1) caption similarity, (2) gesture classification, and (3) pose sequence reconstruction similarity. Results show that current VLMs struggle with gesture understanding: sentence similarity averages below 0.59, and classification F1 scores reach only 0.14-0.39, well below the expert baseline of 0.70. While pose reconstruction shows potential, it requires more data and refined metrics to be reliable. Our findings reveal that although some SOTA VLMs can interpret zero-shot human traffic gestures, none are accurate and robust enough to be trustworthy, emphasizing the need for further research in this domain.
- Abstract(参考訳): 自律運転においては、道路利用者の安全で快適な交通環境を確保するために、命令や指示を提供する当局の人物や、運転手に信号を送る歩行者など、交通ジェスチャー(TG)を正しく解釈することが重要である。
本研究では、ゼロショット解釈における最先端の視覚言語モデル(VLM)の機能について検討し、交通状況における人間のジェスチャーのキャプションと分類能力に着目した。
Stop”,“Reverse”,“Hail”など,さまざまな形式的および非公式なTGを備えた2つのカスタムデータセットを作成し,公開しています。
データセットは"Acted TG (ATG)"と"Instructive TG In-The-Wild (ITGI)"である。
彼らは、歩行者の身体の位置とジェスチャーを記述した自然言語で注釈付けされている。
提案手法は,(1)キャプション類似度,(2)ジェスチャー分類,(3)ポーズシーケンス再構成類似度という3つの手法を用いて評価する。
文類似度の平均は0.59以下であり、分類F1スコアは0.14-0.39であり、専門家ベースラインの0.70よりかなり低い。
ポーズの再構築は潜在的な可能性を示しているが、信頼性を高めるにはより多くのデータと洗練されたメトリクスが必要である。
我々の研究結果によると、一部のSOTA VLMはゼロショットの人間の交通動作を解釈できるが、信頼に値するほど正確で堅牢なものは存在せず、この分野におけるさらなる研究の必要性を強調している。
関連論文リスト
- doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - FedDrive: Generalizing Federated Learning to Semantic Segmentation in
Autonomous Driving [27.781734303644516]
フェデレートラーニングは、プライバシを保持し、何百万ものリモートデバイス上のデータを活用しながら、グローバルモデルを学ぶことを目的としている。
3つの設定と2つのデータセットからなる新しいベンチマークであるFedDriveを提案する。
我々は、詳細な分析を通じて、フェデレートされた学習文献から最先端のアルゴリズムをベンチマークする。
論文 参考訳(メタデータ) (2022-02-28T10:34:31Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Recognition and 3D Localization of Pedestrian Actions from Monocular
Video [11.29865843123467]
本稿では,エゴセントリックな視点から,単眼歩行行動認識と3D位置認識に焦点を当てた。
都市交通シーンにおけるこの問題に対処する上での課題は、歩行者の予測不可能な行動に起因する。
論文 参考訳(メタデータ) (2020-08-03T19:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。