Fugu-MT 論文翻訳(概要): Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving

論文の概要: Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2409.06702v1
Date: Tue, 10 Sep 2024 17:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 16:23:35.043197
Title: Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving
Title（参考訳）: Hint-AD: エンド・ツー・エンド自動運転における一貫した解釈可能性
Authors: Kairui Ding, Boyuan Chen, Yuchen Su, Huan-ang Gao, Bu Jin, Chonghao Sima, Wuqiang Zhang, Xiaohui Li, Paul Barsch, Hongyang Li, Hao Zhao,
Abstract要約: Hint-ADは、ADモデルの総合的な知覚予測計画出力に対応する言語を生成する統合AD言語システムである。 Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効適応に組み込むことで、望ましい精度を実現する。 nuScenesにおける説明タスクの実行に関するさらなる研究を容易にするため、人間ラベル付きデータセット、Nu-X.コード、データセット、モデルも公開する予定である。
参考スコア（独自算出の注目度）: 18.733927270738455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end architectures in autonomous driving (AD) face a significant challenge in interpretability, impeding human-AI trust. Human-friendly natural language has been explored for tasks such as driving explanation and 3D captioning. However, previous works primarily focused on the paradigm of declarative interpretability, where the natural language interpretations are not grounded in the intermediate outputs of AD systems, making the interpretations only declarative. In contrast, aligned interpretability establishes a connection between language and the intermediate outputs of AD systems. Here we introduce Hint-AD, an integrated AD-language system that generates language aligned with the holistic perception-prediction-planning outputs of the AD model. By incorporating the intermediate outputs and a holistic token mixer sub-network for effective feature adaptation, Hint-AD achieves desirable accuracy, achieving state-of-the-art results in driving language tasks including driving explanation, 3D dense captioning, and command prediction. To facilitate further study on driving explanation task on nuScenes, we also introduce a human-labeled dataset, Nu-X. Codes, dataset, and models will be publicly available.
Abstract（参考訳）: 自動運転(AD)におけるエンドツーエンドアーキテクチャは、人間とAIの信頼を阻害する、解釈可能性において大きな課題に直面している。ヒューマンフレンドリーな自然言語は、説明や3Dキャプションなどのタスクのために研究されてきた。しかし、以前の研究は主に宣言的解釈可能性のパラダイムに焦点を当てており、自然言語の解釈はADシステムの中間出力に根ざしていないため、解釈は宣言的のみである。対照的に、整合性はADシステムの言語と中間出力との接続を確立する。本稿では,Hint-ADについて紹介する。Hint-ADは,ADモデルの包括的知覚予測計画出力に対応する言語を生成する統合AD言語システムである。 Hint-ADは、中間出力と総括トークンミキサーサブネットワークを有効機能適応に組み込むことで、望ましい精度を実現し、運転説明、3D密接なキャプション、コマンド予測などの言語タスクの最先端結果を達成する。 nuScenesにおける説明課題の推進を容易にするために,人間ラベル付きデータセットNu-Xを導入する。コード、データセット、モデルは公開されます。

関連論文リスト

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。 nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-24T05:59:10Z)
E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving [56.50212124887739]
自動運転車は、自由形式の自然言語コマンドを解釈し、感情を推測し、物理的に実現可能な軌道を計画しなければならない。感情を意識したVLAフレームワークであるE3ADを提案する。モダリティ事前学習と嗜好に基づくアライメントを組み合わせた一貫性指向のトレーニングスキームは、感情意図と運転行動の一貫性をさらに強化する。
論文参考訳（メタデータ） (2025-12-04T12:17:25Z)
Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis [0.5545791216381869]
本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。 We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
論文参考訳（メタデータ） (2025-11-28T21:27:58Z)
Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文参考訳（メタデータ） (2025-11-03T18:43:48Z)
Towards Open-Ended Discovery for Low-Resource NLP [2.31792878608513]
オープンエンドでインタラクティブな言語発見へのパラダイムシフトを議論する。本稿では,人・機械の協調的不確実性に基づく枠組みを提案する。この論文は行動への呼びかけであり、我々は、未文書の言語におけるAIが人間の知識とどのように関わるかを再考することを提唱する。
論文参考訳（メタデータ） (2025-09-22T01:19:04Z)
Building A Unified AI-centric Language System: analysis, framework and future work [0.0]
本稿では,AI中心の統一言語システムの設計について考察する。多様な自然言語入力を合理化されたAIフレンドリーな言語に翻訳するフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T20:32:57Z)
Language Driven Occupancy Prediction [13.35971455725581]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。私たちのパイプラインは、画像の貴重な意味情報を掘り下げ、画像からテキストラベルをLiDARポイントクラウドに、最終的にはボクセルに転送する、実現可能な方法を提供します。教師付き占有モデルの当初の予測ヘッドを二進的占有状態のための幾何学ヘッドと言語特徴のための言語ヘッドに置き換えることで、LOccは生成された言語基底真実を効果的に利用して、3D言語ボリュームの学習をガイドする。
論文参考訳（メタデータ） (2024-11-25T03:47:10Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Training Zero-Shot Generalizable End-to-End Task-Oriented Dialog System Without Turn-level Dialog Annotations [2.757798192967912]
この作業はマルチタスク命令の微調整を用いて、より効率的でスケーラブルなタスク指向対話システムを構築する。提案手法は,アノテートされたデータに基づいて訓練された最先端モデルと,市販のChatGPTモデルから10億のパラメータを比較検討する。
論文参考訳（メタデータ） (2024-07-21T04:52:38Z)
Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文参考訳（メタデータ） (2023-11-18T02:00:20Z)
Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文参考訳（メタデータ） (2023-05-25T06:22:10Z)
SHINE: Syntax-augmented Hierarchical Interactive Encoder for Zero-shot Cross-lingual Information Extraction [47.88887327545667]
本研究では,構文拡張型階層型インタラクティブエンコーダ(SHINE)を提案する。 Shineは、特徴とコンテキスト情報の間の相補的な情報をインタラクティブにキャプチャすることができる。 3つのIEタスクと4つのベンチマークで7つの言語で実験を行い、提案手法の有効性と一般化能力を検証した。
論文参考訳（メタデータ） (2023-05-21T08:02:06Z)
Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。 SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-10-14T01:24:03Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文参考訳（メタデータ） (2022-02-03T18:55:52Z)
Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文参考訳（メタデータ） (2020-09-11T17:35:05Z)
Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。 SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文参考訳（メタデータ） (2020-04-28T07:24:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。