論文の概要: Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
- arxiv url: http://arxiv.org/abs/2503.07587v1
- Date: Mon, 10 Mar 2025 17:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:22.053400
- Title: Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru
- Title(参考訳): Robusto-1 Dataset: ペルーの実際のアウト・オブ・ディストリビューション自動運転VQAにおける人間とVLMの比較
- Authors: Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza,
- Abstract要約: 基礎的視覚言語モデル(VLM)と運転時の人間(Humans in Driving)の類似性を示す。
その結果,アライメントの程度は,システムの種類によって大きく異なることがわかった。
- 参考スコア(独自算出の注目度): 2.874893537471256
- License:
- Abstract: As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations -- especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.
- Abstract(参考訳): マルチモーダル基礎モデルが自動運転車に実験的に導入されるようになると、私たち自身が考える妥当な疑問は、これらのシステムが特定の運転状況において、特にアウト・オブ・ディストリビューション(out-of-distribution)のシステムにどのように反応するか、という点だ。
これを研究するために、世界最悪の(攻撃的な)ドライバーの1人であるペルーのダシュカムビデオデータ、高いトラフィックインデックス、そしてトレーニングで見たことのない非奇妙なストリートオブジェクトに対する奇異な比率を使用するRobosto-1データセットを作成しました。
特に、基礎的視覚言語モデル(VLM)が運転中の人間といかによく比較できるかを認知レベルで予備的にテストするために、私たちは、境界ボックス、セグメンテーションマップ、占有マップ、軌跡推定からマルチモーダル視覚質問回答(VQA)へ、Representational similarity Analysis (RSA)として知られるシステム神経科学において、人間と機械を比較した一般的な方法を通じて、人間とマシンを比較した。
私たちが質問する質問の種類や、これらのシステムが与える回答によって、VLMとヒューマンがどのケースに収束するかを示し、その認知的アライメントを調査できるようにします。
各システムに対して質問される質問の種類(Humans vs VLMs)によって、アライメントの程度が著しく異なり、アライメントのギャップが浮き彫りになることがわかった。
関連論文リスト
- Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Learning Latent Traits for Simulated Cooperative Driving Tasks [10.009803620912777]
我々は,人間の行動や嗜好の観点から,人間のコンパクトな潜在表現を捉えることのできるフレームワークを構築した。
そして、注意を散らす運転行動の1形態をモデル化するための軽量なシミュレーション環境、HMIway-envを構築します。
最終的にこの環境を利用して、ドライバを識別する能力と介入ポリシーの有効性の両方を定量化します。
論文 参考訳(メタデータ) (2022-07-20T02:27:18Z) - Automatic extraction of similar traffic scenes from large naturalistic
datasets using the Hausdorff distance [0.0]
集合の数学的距離計量であるハウスドルフ距離を用いる4段階抽出法を提案する。
この方法により、コストと時間を要する運転シミュレーション実験を必要とせず、操作的および戦術的人間の行動の変動について検討することができる。
論文 参考訳(メタデータ) (2022-06-17T06:59:51Z) - Multimodal Detection of Unknown Objects on Roads for Autonomous Driving [4.3310896118860445]
未知の物体を検出する新しいパイプラインを提案する。
我々は,最先端の美術品検出モデルを逐次的に組み合わせることで,ライダーとカメラのデータを利用する。
論文 参考訳(メタデータ) (2022-05-03T10:58:41Z) - Anomaly Detection in Multi-Agent Trajectories for Automated Driving [2.5211566369910967]
人間と同様、自動走行車は異常検出を行う。
私たちの革新は、動的エージェントの複数の軌道を共同で学習する能力です。
論文 参考訳(メタデータ) (2021-10-15T08:07:31Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Studying Person-Specific Pointing and Gaze Behavior for Multimodal
Referencing of Outside Objects from a Moving Vehicle [58.720142291102135]
物体選択と参照のための自動車応用において、手指しと目視が広く研究されている。
既存の車外参照手法は静的な状況に重点を置いているが、移動車両の状況は極めて動的であり、安全性に制約がある。
本研究では,外部オブジェクトを参照するタスクにおいて,各モダリティの具体的特徴とそれら間の相互作用について検討する。
論文 参考訳(メタデータ) (2020-09-23T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。