論文の概要: Can you text what is happening? Integrating pre-trained language
encoders into trajectory prediction models for autonomous driving
- arxiv url: http://arxiv.org/abs/2309.05282v2
- Date: Wed, 13 Sep 2023 10:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 11:14:59.188127
- Title: Can you text what is happening? Integrating pre-trained language
encoders into trajectory prediction models for autonomous driving
- Title(参考訳): 何が起きているのか メールしてもらえますか?
自律走行のための軌道予測モデルへの事前学習言語エンコーダの統合
- Authors: Ali Keysan, Andreas Look, Eitan Kosman, Gonca G\"ursun, J\"org Wagner,
Yu Yao, Barbara Rakitsch
- Abstract要約: 自動運転タスクでは、周囲の交通参加者の将来の行動を予測するための最初のステップがシーン理解である。
トラフィックシーンをテキストベースで表現し,言語エンコーダで処理する。
- 参考スコア(独自算出の注目度): 14.45922081268057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving tasks, scene understanding is the first step towards
predicting the future behavior of the surrounding traffic participants. Yet,
how to represent a given scene and extract its features are still open research
questions. In this study, we propose a novel text-based representation of
traffic scenes and process it with a pre-trained language encoder.
First, we show that text-based representations, combined with classical
rasterized image representations, lead to descriptive scene embeddings. Second,
we benchmark our predictions on the nuScenes dataset and show significant
improvements compared to baselines. Third, we show in an ablation study that a
joint encoder of text and rasterized images outperforms the individual encoders
confirming that both representations have their complementary strengths.
- Abstract(参考訳): 自動運転タスクでは、周囲の交通参加者の将来の行動を予測するための最初のステップがシーン理解である。
しかし、あるシーンを表現し、その特徴を抽出する方法はまだ研究の余地がある。
本研究では,トラフィックシーンをテキストベースで表現し,事前学習した言語エンコーダで処理する手法を提案する。
まず,テキストに基づく表現と古典的なラスタ化画像表現を組み合わせることで,記述的シーン埋め込みが実現することを示す。
次に、nuScenesデータセットの予測をベンチマークし、ベースラインと比較して大幅に改善したことを示す。
第3に,テキストとラスタ化画像のジョイントエンコーダが個々のエンコーダよりも優れており,両表現が相補的な強みを持っていることを確認した。
関連論文リスト
- FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - Dual Modalities of Text: Visual and Textual Generative Pre-training [35.82610192457444]
本稿では,RGB画像としてレンダリングされた4億以上の文書のコーパスを事前学習する,画素ベースの自動回帰言語モデルのための新しい事前学習フレームワークを提案する。
本手法は,次のパッチ予測による視覚データと,次のトークン予測によるテキストデータの両方を分類ヘッドで処理する,二重モードトレーニング方式を特徴とする。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。