論文の概要: Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.06702v1
- Date: Tue, 10 Sep 2024 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 16:23:35.043197
- Title: Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving
- Title(参考訳): Hint-AD: エンド・ツー・エンド自動運転における一貫した解釈可能性
- Authors: Kairui Ding, Boyuan Chen, Yuchen Su, Huan-ang Gao, Bu Jin, Chonghao Sima, Wuqiang Zhang, Xiaohui Li, Paul Barsch, Hongyang Li, Hao Zhao,
- Abstract要約: Hint-ADは、ADモデルの総合的な知覚予測計画出力に対応する言語を生成する統合AD言語システムである。
Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効適応に組み込むことで、望ましい精度を実現する。
nuScenesにおける説明タスクの実行に関するさらなる研究を容易にするため、人間ラベル付きデータセット、Nu-X.コード、データセット、モデルも公開する予定である。
- 参考スコア(独自算出の注目度): 18.733927270738455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end architectures in autonomous driving (AD) face a significant challenge in interpretability, impeding human-AI trust. Human-friendly natural language has been explored for tasks such as driving explanation and 3D captioning. However, previous works primarily focused on the paradigm of declarative interpretability, where the natural language interpretations are not grounded in the intermediate outputs of AD systems, making the interpretations only declarative. In contrast, aligned interpretability establishes a connection between language and the intermediate outputs of AD systems. Here we introduce Hint-AD, an integrated AD-language system that generates language aligned with the holistic perception-prediction-planning outputs of the AD model. By incorporating the intermediate outputs and a holistic token mixer sub-network for effective feature adaptation, Hint-AD achieves desirable accuracy, achieving state-of-the-art results in driving language tasks including driving explanation, 3D dense captioning, and command prediction. To facilitate further study on driving explanation task on nuScenes, we also introduce a human-labeled dataset, Nu-X. Codes, dataset, and models will be publicly available.
- Abstract(参考訳): 自動運転(AD)におけるエンドツーエンドアーキテクチャは、人間とAIの信頼を阻害する、解釈可能性において大きな課題に直面している。
ヒューマンフレンドリーな自然言語は、説明や3Dキャプションなどのタスクのために研究されてきた。
しかし、以前の研究は主に宣言的解釈可能性のパラダイムに焦点を当てており、自然言語の解釈はADシステムの中間出力に根ざしていないため、解釈は宣言的のみである。
対照的に、整合性はADシステムの言語と中間出力との接続を確立する。
本稿では,Hint-ADについて紹介する。Hint-ADは,ADモデルの包括的知覚予測計画出力に対応する言語を生成する統合AD言語システムである。
Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効機能適応に組み込むことで、望ましい精度を実現し、運転説明、3D密接なキャプション、コマンド予測などの言語タスクの最先端結果を達成する。
nuScenesにおける説明課題の推進を容易にするために,人間ラベル付きデータセットNu-Xを導入する。
コード、データセット、モデルは公開されます。
関連論文リスト
- Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。
画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。
その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文 参考訳(メタデータ) (2023-11-18T02:00:20Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - SHINE: Syntax-augmented Hierarchical Interactive Encoder for Zero-shot
Cross-lingual Information Extraction [47.88887327545667]
本研究では,構文拡張型階層型インタラクティブエンコーダ(SHINE)を提案する。
Shineは、特徴とコンテキスト情報の間の相補的な情報をインタラクティブにキャプチャすることができる。
3つのIEタスクと4つのベンチマークで7つの言語で実験を行い、提案手法の有効性と一般化能力を検証した。
論文 参考訳(メタデータ) (2023-05-21T08:02:06Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - LaMPP: Language Models as Probabilistic Priors for Perception and Action [38.07277869107474]
非言語的知覚と制御タスクに言語モデルを活用する方法を示す。
提案手法は,確率的グラフィカルモデルにおけるラベリングと意思決定を推論として用いている。
論文 参考訳(メタデータ) (2023-02-03T15:14:04Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。
本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T17:35:05Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。