Fugu-MT 論文翻訳(概要): Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

論文の概要: Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

arxiv url: http://arxiv.org/abs/2309.06597v2
Date: Wed, 8 Nov 2023 09:12:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 19:12:30.581818
Title: Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning
Title（参考訳）: Rank2Tell: 共同重要度ランキングと推論のためのマルチモーダル運転データセット
Authors: Enna Sachdeva, Nakul Agarwal, Suhas Chundi, Sean Roelofs, Jiachen Li, Mykel Kochenderfer, Chiho Choi, Behzad Dariush
Abstract要約: 本稿では,重要度をランク付けするマルチモーダル・エゴ中心のデータセットである Rank2Tell を紹介し,その重要性の理由を述べる。クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。
参考スコア（独自算出の注目度）: 19.43430577960824
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The widespread adoption of commercial autonomous vehicles (AVs) and advanced driver assistance systems (ADAS) may largely depend on their acceptance by society, for which their perceived trustworthiness and interpretability to riders are crucial. In general, this task is challenging because modern autonomous systems software relies heavily on black-box artificial intelligence models. Towards this goal, this paper introduces a novel dataset, Rank2Tell, a multi-modal ego-centric dataset for Ranking the importance level and Telling the reason for the importance. Using various close and open-ended visual question answering, the dataset provides dense annotations of various semantic, spatial, temporal, and relational attributes of various important objects in complex traffic scenarios. The dense annotations and unique attributes of the dataset make it a valuable resource for researchers working on visual scene understanding and related fields. Furthermore, we introduce a joint model for joint importance level ranking and natural language captions generation to benchmark our dataset and demonstrate performance with quantitative evaluations.
Abstract（参考訳）: 商業用自動運転車(AV)や高度運転支援システム(ADAS)の普及は、乗客に対する信頼感と解釈性が重要であると認識される社会の受容に大きく依存している可能性がある。一般的に、現代の自律システムソフトウェアはブラックボックス人工知能モデルに大きく依存しているため、この課題は難しい。この目的に向けて,重要度をランク付けし,その重要性の理由を述べるマルチモーダルなego中心のデータセットであるrank2tellを提案する。クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。データセットの濃密なアノテーションとユニークな属性は、視覚的なシーン理解と関連する分野に取り組む研究者にとって貴重なリソースとなる。さらに,共同重要度ランキングと自然言語キャプション生成のための共同モデルを導入し,データセットをベンチマークし,定量的評価により性能を示す。

関連論文リスト

DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook [24.691922611156937]
複数の視点から265個の自律走行データセットを網羅的に検討した。我々は、新しいデータセットを作成するためのガイドとしても使えるデータセットの影響を評価するための新しい指標を紹介します。我々は、将来の自動運転データセットの現在の課題と開発動向について論じる。
論文参考訳（メタデータ） (2024-01-02T22:35:33Z)
Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [130.87142103774752]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。また、解決を保障する科学的、技術的課題も検討している。
論文参考訳（メタデータ） (2023-12-06T10:46:53Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Important Object Identification with Semi-Supervised Learning for Autonomous Driving [37.654878298744855]
本稿では,エゴセントリック駆動シナリオにおける重要な物体識別のための新しい手法を提案する。モデルが無制限なラベル付きデータから学習できるようにするための,半教師付き学習パイプラインを提案する。私たちのアプローチはルールベースのベースラインよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2022-03-05T01:23:13Z)
Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文参考訳（メタデータ） (2021-01-16T23:45:02Z)
The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset: Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文参考訳（メタデータ） (2021-01-15T10:40:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。