論文の概要: Towards Explainable, Safe Autonomous Driving with Language Embeddings
for Novelty Identification and Active Learning: Framework and Experimental
Analysis with Real-World Data Sets
- arxiv url: http://arxiv.org/abs/2402.07320v1
- Date: Sun, 11 Feb 2024 22:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:21:42.138423
- Title: Towards Explainable, Safe Autonomous Driving with Language Embeddings
for Novelty Identification and Active Learning: Framework and Experimental
Analysis with Real-World Data Sets
- Title(参考訳): ノベルティ識別とアクティブラーニングのための言語埋め込みによる説明可能な安全な自律運転に向けて:実世界のデータセットを用いたフレームワークと実験分析
- Authors: Ross Greer and Mohan Trivedi
- Abstract要約: 本研究では、自律運転データセットにおけるアクティブラーニングのための言語埋め込みの統合について検討する。
提案手法は,新規シーンの識別に言語に基づく表現を用い,安全テイクオーバ応答とアクティブラーニングの両目的を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research explores the integration of language embeddings for active
learning in autonomous driving datasets, with a focus on novelty detection.
Novelty arises from unexpected scenarios that autonomous vehicles struggle to
navigate, necessitating higher-level reasoning abilities. Our proposed method
employs language-based representations to identify novel scenes, emphasizing
the dual purpose of safety takeover responses and active learning. The research
presents a clustering experiment using Contrastive Language-Image Pretrained
(CLIP) embeddings to organize datasets and detect novelties. We find that the
proposed algorithm effectively isolates novel scenes from a collection of
subsets derived from two real-world driving datasets, one vehicle-mounted and
one infrastructure-mounted. From the generated clusters, we further present
methods for generating textual explanations of elements which differentiate
scenes classified as novel from other scenes in the data pool, presenting
qualitative examples from the clustered results. Our results demonstrate the
effectiveness of language-driven embeddings in identifying novel elements and
generating explanations of data, and we further discuss potential applications
in safe takeovers, data curation, and multi-task active learning.
- Abstract(参考訳): 本研究では,自律運転データセットにおける能動的学習のための言語組込みの統合について検討する。
自動運転車が走行に苦しむ予期せぬシナリオから生まれた新奇さは、より高いレベルの推論能力を必要とする。
提案手法は,新規シーンの識別に言語に基づく表現を用い,安全テイクオーバ応答とアクティブラーニングの両目的を強調した。
本研究では,Contrastive Language-Image Pretrained (CLIP) 埋め込みを用いたクラスタリング実験を行い,データセットの整理と新規性の検出を行う。
提案アルゴリズムは,車載とインフラ搭載の2つの実世界の運転データセットから抽出したサブセットから,新規シーンを効果的に分離する。
生成されたクラスタからさらに,データプール内の他のシーンとノベルとして分類されたシーンを区別する要素のテキスト的説明を生成する手法を提案し,クラスタ化された結果から質的例を示す。
本研究は,新たな要素の同定とデータ説明生成における言語による埋め込みの有効性を実証し,安全テイクオーバやデータキュレーション,マルチタスク能動的学習における潜在的な応用について検討する。
関連論文リスト
- Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Actively Discovering New Slots for Task-oriented Conversation [19.815466126158785]
本稿では,ループ内学習を実現するため,情報抽出方式で汎用的なスロットタスクを提案する。
我々は既存の言語ツールを活用し、対応するラベルが弱い監視信号として利用される値候補を抽出する。
いくつかの公開データセットに対して広範な実験を行い、競合するベースラインを多数比較して手法を実証する。
論文 参考訳(メタデータ) (2023-05-06T13:33:33Z) - Revisiting Deep Active Learning for Semantic Segmentation [37.3546941940388]
本研究では,本論文で提案する各種能動的学習目標の性能について,データ分布が決定的であることを示す。
半教師付き学習とアクティブラーニングの統合は,2つの目標が整列した際の性能向上を実証する。
論文 参考訳(メタデータ) (2023-02-08T14:23:37Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。