論文の概要: TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early
Intent Prediction
- arxiv url: http://arxiv.org/abs/2210.14714v1
- Date: Wed, 26 Oct 2022 13:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:45:18.432282
- Title: TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early
Intent Prediction
- Title(参考訳): TAMFormer: 早期入射予測のための学習注意マスク付きマルチモーダルトランス
- Authors: Nada Osman and Guglielmo Camporese and Lamberto Ballan
- Abstract要約: 歩行者の早期意図予測に焦点をあて,都市景観の現在の観察から,街路に近づく歩行者の今後の活動を予測する。
提案手法は,過去の観測を符号化し,予測時間が異なる複数の予測を生成するマルチモーダルトランスフォーマに基づいている。
- 参考スコア(独自算出の注目度): 3.158346511479111
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human intention prediction is a growing area of research where an activity in
a video has to be anticipated by a vision-based system. To this end, the model
creates a representation of the past, and subsequently, it produces future
hypotheses about upcoming scenarios. In this work, we focus on pedestrians'
early intention prediction in which, from a current observation of an urban
scene, the model predicts the future activity of pedestrians that approach the
street. Our method is based on a multi-modal transformer that encodes past
observations and produces multiple predictions at different anticipation times.
Moreover, we propose to learn the attention masks of our transformer-based
model (Temporal Adaptive Mask Transformer) in order to weigh differently
present and past temporal dependencies. We investigate our method on several
public benchmarks for early intention prediction, improving the prediction
performances at different anticipation times compared to the previous works.
- Abstract(参考訳): 人間の意図予測(Human intention prediction)は、ビデオ内の活動が視覚ベースのシステムによって予測されなければならない研究領域である。
この目的のために、モデルは過去の表現を作成し、その後のシナリオに関する将来の仮説を生成する。
本研究では,現在の都市景観の観測から,歩行者の街路への接近行動を予測する,歩行者の早期意図予測に着目する。
本手法は,過去の観測を符号化し,予測時間が異なる複数の予測を生成するマルチモーダルトランスをベースとする。
さらに,現在および過去の時間依存性を重み付けするために,トランスフォーマベースモデル(Temporal Adaptive Mask Transformer)の注目マスクを学習することを提案する。
本手法は, 早期意図予測のためのいくつかの公開ベンチマークにおいて, 予測時間の違いによる予測性能の向上を図る。
関連論文リスト
- Back To The Future: A Hybrid Transformer-XGBoost Model for Action-oriented Future-proofing Nowcasting [0.0]
映画『バック・トゥ・ザ・フューチャー』にインスパイアされた本研究では、革新的な適応型放送手法を探求する。
映画では、キャラクターは時間をかけて過去の出来事を操り、より良い未来を創り出す。
我々のフレームワークは、現在の状況を予測し、調整するために未来に関する予測的な洞察を利用する。
論文 参考訳(メタデータ) (2024-12-21T08:53:28Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Sinkhorn-Flow: Predicting Probability Mass Flow in Dynamical Systems
Using Optimal Transport [89.61692654941106]
そこで本稿では, 最適な輸送手段を用いて, 時間とともにそのような物質流を予測する新しい手法を提案する。
我々は、ソーシャルネットワークの設定において、コミュニティがどのように進化していくかを予測するタスクに、我々のアプローチを適用した。
論文 参考訳(メタデータ) (2023-03-14T07:25:44Z) - Graph-based Spatial Transformer with Memory Replay for Multi-future
Pedestrian Trajectory Prediction [13.466380808630188]
歴史的軌跡に基づく複数経路の予測モデルを提案する。
提案手法は,空間情報を利用するとともに,時間的に矛盾した軌道を補正することができる。
実験により,提案手法は,複数未来予測の最先端性能と,単一未来予測の競合結果が得られることを示した。
論文 参考訳(メタデータ) (2022-06-12T10:25:12Z) - Learning Future Object Prediction with a Spatiotemporal Detection
Transformer [1.1543275835002982]
我々は、未来のオブジェクトを直接出力するように検出変換器を訓練する。
既存のトランスフォーマーを2つの方法で拡張し、シーンダイナミクスをキャプチャします。
我々の最終アプローチは、力学を捉えることを学び、100ミリ秒の予測地平線をオラクルと同等に予測する。
論文 参考訳(メタデータ) (2022-04-21T17:58:36Z) - StretchBEV: Stretching Future Instance Prediction Spatially and
Temporally [0.0]
自動運転車では、車を取り巻くすべてのエージェントの位置と動きから未来を予測することが、計画にとって重要な要件である。
近年,複数のカメラから知覚されるリッチな感覚情報を小型の鳥眼ビュー表現に融合させて予測を行うことにより,知覚と予測の新たな共同定式化が進んでいる。
しかし、将来の予測の質は、複数の妥当な予測のために、より長い時間的地平線に拡張しながら、時間とともに劣化する。
本研究では,将来の予測におけるこのような不確実性に時間的モデルを用いて対処する。
論文 参考訳(メタデータ) (2022-03-25T13:28:44Z) - FIERY: Future Instance Prediction in Bird's-Eye View from Surround
Monocular Cameras [33.08698074581615]
単眼カメラによる鳥眼視における確率論的未来予測モデルFIERYを提案する。
我々のアプローチは、従来の自律運転スタックの知覚、センサー融合、予測コンポーネントを組み合わせています。
当社のモデルは,NuScenesとLyftのデータセットに基づく予測ベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-04-21T12:21:40Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。