論文の概要: Language-Enhanced Latent Representations for Out-of-Distribution Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2405.01691v1
- Date: Thu, 2 May 2024 19:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:44:38.541504
- Title: Language-Enhanced Latent Representations for Out-of-Distribution Detection in Autonomous Driving
- Title(参考訳): 自動走行におけるアウト・オブ・ディストリビューション検出のための言語強化潜在表現
- Authors: Zhenjiang Mao, Dong-You Jhong, Ao Wang, Ivan Ruchkin,
- Abstract要約: マルチモーダル入力は、人間の言語を潜在表現として捉える可能性を提供する。
本稿では,マルチモーダルモデルCLIPで符号化された画像とテキストのコサイン類似性を新しい表現として利用する。
現実的な駆動データを用いた実験により,言語に基づく潜在表現は従来の視覚エンコーダの表現よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 1.3499500088995464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) detection is essential in autonomous driving, to determine when learning-based components encounter unexpected inputs. Traditional detectors typically use encoder models with fixed settings, thus lacking effective human interaction capabilities. With the rise of large foundation models, multimodal inputs offer the possibility of taking human language as a latent representation, thus enabling language-defined OOD detection. In this paper, we use the cosine similarity of image and text representations encoded by the multimodal model CLIP as a new representation to improve the transparency and controllability of latent encodings used for visual anomaly detection. We compare our approach with existing pre-trained encoders that can only produce latent representations that are meaningless from the user's standpoint. Our experiments on realistic driving data show that the language-based latent representation performs better than the traditional representation of the vision encoder and helps improve the detection performance when combined with standard representations.
- Abstract(参考訳): 学習ベースコンポーネントが予期しない入力にいつ遭遇するかを判断するために、自動走行において、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
従来の検出器は通常、固定された設定を持つエンコーダモデルを使用するため、効果的なヒューマンインタラクション能力が欠如している。
大規模基盤モデルの台頭に伴い、マルチモーダル入力は人間の言語を潜在表現として捉える可能性を提供し、言語定義のOOD検出を可能にする。
本稿では、マルチモーダルモデルCLIPによって符号化された画像とテキストのコサイン類似性を新しい表現として利用し、視覚異常検出に使用される潜時符号化の透明性と制御性を改善する。
我々は,ユーザの視点では意味のない潜在表現しか生成できない既存の事前学習エンコーダと比較する。
現実的な駆動データを用いた実験では,言語に基づく潜在表現は従来の視覚エンコーダの表現よりも優れており,標準表現と組み合わせることで検出性能の向上が期待できる。
関連論文リスト
- FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Towards Learning Discrete Representations via Self-Supervision for
Wearables-Based Human Activity Recognition [7.086647707011785]
ウェアラブルコンピューティングにおけるヒューマンアクティビティ認識(HAR)は、通常、センサーデータの直接処理に基づいている。
ウェアラブルアプリケーションへのベクトル量子化(VQ)の最近の進歩により、センサデータの短いスパンとベクトルのコードブックのマッピングを直接学習できるようになりました。
この研究は、離散表現がいかに効果的に導出できるかを示すための概念実証を示す。
論文 参考訳(メタデータ) (2023-06-01T19:49:43Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。