論文の概要: IntFormer: Predicting pedestrian intention with the aid of the
Transformer architecture
- arxiv url: http://arxiv.org/abs/2105.08647v1
- Date: Tue, 18 May 2021 16:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 15:33:27.633778
- Title: IntFormer: Predicting pedestrian intention with the aid of the
Transformer architecture
- Title(参考訳): IntFormer: Transformerアーキテクチャの助けを借りて歩行者の意図を予測する
- Authors: J. Lorenzo, I. Parra and M. A. Sotelo
- Abstract要約: intformer法はトランスフォーマーアーキテクチャとrubiksnetと呼ばれる新しい畳み込みビデオ分類モデルに基づいている。
PIEデータセットの交差ケースの類似性から,エゴ車速が最も重要な変数であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding pedestrian crossing behavior is an essential goal in
intelligent vehicle development, leading to an improvement in their security
and traffic flow. In this paper, we developed a method called IntFormer. It is
based on transformer architecture and a novel convolutional video
classification model called RubiksNet. Following the evaluation procedure in a
recent benchmark, we show that our model reaches state-of-the-art results with
good performance ($\approx 40$ seq. per second) and size ($8\times $smaller
than the best performing model), making it suitable for real-time usage. We
also explore each of the input features, finding that ego-vehicle speed is the
most important variable, possibly due to the similarity in crossing cases in
PIE dataset.
- Abstract(参考訳): 歩行者の横断行動を理解することは、インテリジェントな車両開発において重要な目標であり、セキュリティと交通の流れの改善につながる。
本稿では,IntFormerという手法を開発した。
これはトランスフォーマーアーキテクチャとrubiksnetと呼ばれる新しい畳み込みビデオ分類モデルに基づいている。
最近のベンチマークでの評価手順に従うと、我々のモデルは高い性能(約40$ seq)で最先端の結果に達することを示す。
1秒あたり)とサイズ(8\times $smaller than the best performing model)で、リアルタイム使用に適している。
また、各入力特徴についても検討し、Ego-vehicleの速度が最も重要な変数であることを発見した。
関連論文リスト
- LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones [10.435069781620957]
効率的な視覚バックボーンの研究は、畳み込みとトランスフォーマーブロックの混合モデルに進化しつつある。
我々は、MACではなく、実際のスループットとレイテンシの観点から、一般的なモジュールとアーキテクチャ設計の選択を分析します。
マクロデザインとマイクロデザインを組み合わせることで,LowFormerと呼ばれる,ハードウェア効率のよいバックボーンネットワークの新たなファミリを作ります。
論文 参考訳(メタデータ) (2024-09-05T12:18:32Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - GC-GRU-N for Traffic Prediction using Loop Detector Data [5.735035463793008]
シアトルのループ検出器のデータを15分以上収集し、その問題を時空で再現する。
モデルは、最速の推論時間と非常に近いパフォーマンスで第2位(トランスフォーマー)。
論文 参考訳(メタデータ) (2022-11-13T06:32:28Z) - PedFormer: Pedestrian Behavior Prediction via Cross-Modal Attention
Modulation and Gated Multitask Learning [10.812772606528172]
本研究では,エゴ中心の視点から,歩行者の将来の軌跡や横断行動を予測するために,異なるデータモダリティに依存する新しい枠組みを提案する。
本モデルでは, トラジェクトリとアクション予測の精度を, それぞれ22%, 13%向上した。
論文 参考訳(メタデータ) (2022-10-14T15:12:00Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Is attention to bounding boxes all you need for pedestrian action
prediction? [1.3999481573773074]
本稿では,トランスフォーマーモデルの多変量に基づく枠組みを提案し,歩行者の過去の軌跡の動的進化を注意深く推察する。
我々のモデルに対する入力としてバウンディングボックスのみを使用することで、従来の最先端モデルよりも優れていることを示す。
我々のモデルも同様に、このデータセット上で高い精度 (91 と F1 スコア (0.91) に達した。
論文 参考訳(メタデータ) (2021-07-16T17:47:32Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。