論文の概要: ExAgt: Expert-guided Augmentation for Representation Learning of Traffic
Scenarios
- arxiv url: http://arxiv.org/abs/2207.08609v2
- Date: Wed, 20 Jul 2022 06:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 10:47:48.743483
- Title: ExAgt: Expert-guided Augmentation for Representation Learning of Traffic
Scenarios
- Title(参考訳): ExAgt: 交通シナリオの表現学習のためのエキスパートガイド強化
- Authors: Lakshman Balasubramanian, Jonas Wurst, Robin Egolf, Michael Botsch,
Wolfgang Utschick and Ke Deng
- Abstract要約: 本稿では,交通シナリオの拡張のためのエキスパート知識を含む新しい手法であるExAgtを提案する。
ExAgt法は2つの最先端のクロスビュー予測法に適用される。
その結果,ExAgt法は,標準拡張法よりも表現学習を改善することがわかった。
- 参考スコア(独自算出の注目度): 8.879790406465558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning in recent years has been addressed with
self-supervised learning methods. The input data is augmented into two
distorted views and an encoder learns the representations that are invariant to
distortions -- cross-view prediction. Augmentation is one of the key components
in cross-view self-supervised learning frameworks to learn visual
representations. This paper presents ExAgt, a novel method to include expert
knowledge for augmenting traffic scenarios, to improve the learnt
representations without any human annotation. The expert-guided augmentations
are generated in an automated fashion based on the infrastructure, the
interactions between the EGO and the traffic participants and an ideal sensor
model. The ExAgt method is applied in two state-of-the-art cross-view
prediction methods and the representations learnt are tested in downstream
tasks like classification and clustering. Results show that the ExAgt method
improves representation learning compared to using only standard augmentations
and it provides a better representation space stability. The code is available
at https://github.com/lab176344/ExAgt.
- Abstract(参考訳): 近年,自己指導型学習手法によって表現学習が進められている。
入力データは2つの歪んだビューに拡張され、エンコーダは歪みに不変な表現(クロスビュー予測)を学ぶ。
拡張は、視覚表現を学ぶために、クロスビューの自己教師付き学習フレームワークの重要なコンポーネントの1つです。
本稿では,人間のアノテーションを使わずに学習表現を改善するために,トラヒックシナリオを補完する専門家知識を含む新しい手法であるexagtを提案する。
エキスパートガイドによる拡張は、インフラストラクチャ、egoとトラフィック参加者とのインタラクション、理想的なセンサーモデルに基づいて、自動化された方法で生成される。
ExAgt法は2つの最先端のクロスビュー予測手法に適用され、学習した表現は分類やクラスタリングといった下流タスクでテストされる。
その結果,ExAgt法は,標準拡張法よりも表現学習が向上し,表現空間の安定性が向上した。
コードはhttps://github.com/lab176344/exagtで入手できる。
関連論文リスト
- Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation [48.25619775814776]
本稿では,拡散モードに基づく正データ生成を用いた新しい教師なしコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件拡散モデルから構成されており、条件拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成する。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-10T13:28:46Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Self-Supervised Image Representation Learning: Transcending Masking with
Paired Image Overlay [10.715255809531268]
本稿では,自己教師型学習には適用されていない画像のオーバーレイ化という,新たな画像強調手法を提案する。
提案手法は,ダウンストリームタスクにおいて確固とした性能を示す自己教師付き学習手法であるコントラスト学習を用いて評価する。
論文 参考訳(メタデータ) (2023-01-23T07:00:04Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Cross-View-Prediction: Exploring Contrastive Feature for Hyperspectral
Image Classification [9.131465469247608]
本稿では,ハイパースペクトル画像分類のための自己教師付き特徴学習手法を提案する。
本手法は,クロス表現学習手法を用いて,生のハイパースペクトル画像の2つの異なるビューを構築することを試みる。
そして、コントラスト学習法により、生成したビューに対して意味論的に一貫した表現を学習する。
論文 参考訳(メタデータ) (2022-03-14T11:07:33Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。