Fugu-MT 論文翻訳(概要): TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction

論文の概要: TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction

arxiv url: http://arxiv.org/abs/2207.00170v1
Date: Thu, 30 Jun 2022 08:39:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-04 12:48:12.777138
Title: TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction
Title（参考訳）: TENET: 動き予測に有効な時間流れのためのトランスフォーマー符号化ネットワーク
Authors: Yuting Wang, Hangning Zhou, Zhigang Zhang, Chen Feng, Huadong Lin, Chaofei Gao, Yizhi Tang, Zhenting Zhao, Shiyu Zhang, Jie Guo, Xuefeng Wang, Ziyao Xu, Chi Zhang
Abstract要約: 入力符号化と軌道予測のためのトランスフォーマーに基づく手法を開発した。我々はArgoverse 2 Motion Forecasting Challengeで最先端のBrier-minFDEスコア1.90で優勝した。
参考スコア（独自算出の注目度）: 11.698627151060467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This technical report presents an effective method for motion prediction in autonomous driving. We develop a Transformer-based method for input encoding and trajectory prediction. Besides, we propose the Temporal Flow Header to enhance the trajectory encoding. In the end, an efficient K-means ensemble method is used. Using our Transformer network and ensemble method, we win the first place of Argoverse 2 Motion Forecasting Challenge with the state-of-the-art brier-minFDE score of 1.90.
Abstract（参考訳）: 本技術報告は自律運転における動作予測に有効な方法である。入力符号化と軌道予測のためのトランスベース手法を開発した。さらに,時間的フローヘッダーを提案し,軌道符号化を強化する。最後に、効率的なk-meansアンサンブル法を用いる。トランスフォーマーネットワークとアンサンブル方式を用いて,最先端のBRER-minFDEスコア1.90でArgoverse 2 Motion Forecasting Challengeの1位を獲得した。

関連論文リスト

Video Motion Transfer with Diffusion Transformers [82.4796313201512]
本稿では,参照ビデオの動作を新たに合成したものに転送する方法であるDiTFlowを提案する。まず、トレーニング済みのDiTを用いて参照ビデオを処理し、クロスフレームアテンションマップを分析し、パッチワイズ動作信号を抽出する。我々は、位置埋め込みを変換し、ゼロショットモーション転送能力を向上する戦略を適用した。
論文参考訳（メタデータ） (2024-12-10T18:59:58Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
OFMPNet: Deep End-to-End Model for Occupancy and Flow Prediction in Urban Environment [0.0]
環境中の全ての動的オブジェクトの将来の挙動を予測するために,エンド・ツー・エンドのニューラルネットワーク手法を提案する。本稿では, 終点誤差の大幅な低減を図った新しい時間重み付きモーションフロー損失を提案する。
論文参考訳（メタデータ） (2024-04-02T19:37:58Z)
WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [13.616763172038846]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-04-02T16:28:41Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。 K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文参考訳（メタデータ） (2023-10-19T17:59:01Z)
Physics-informed Machine Learning for Calibrating Macroscopic Traffic Flow Models [7.422267768764612]
交通現象の理解と制御戦略の設計には,よく校正された交通流モデルが不可欠である。そこで本研究では,最適化手法に匹敵する性能と,さらに優れた性能を実現する,物理インフォームドな,学習ベースのキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2023-07-12T16:11:57Z)
Context-aware Pedestrian Trajectory Prediction with Multimodal Transformer [16.457778420360537]
歩行者の将来の軌跡を予測するための新しい手法を提案する。本手法では,歩行者位置と自走車速の両方を入力とするマルチモーダルエンコーダデコーダトランスアーキテクチャを用いる。我々は、PIEとJAADという2つの一般的なデータセット上で詳細な実験を行い、その方法を評価する。
論文参考訳（メタデータ） (2023-07-07T18:21:05Z)
STrajNet: Occupancy Flow Prediction via Multi-modal Swin Transformer [7.755385141347842]
本研究は,効率的なシーン占有とフロー予測のためのマルチモーダルSwinトランスフォーマーベースのフレームワークSTrajNetを提案する。我々は,Swin Transformerを用いて画像とインタラクションを意識した動作表現を符号化し,グリッドセルに動き認識を注入するクロスアテンションモジュールを提案する。フローと占有率の予測は、時間的共有ピラミッドデコーダによってデコードされる。
論文参考訳（メタデータ） (2022-07-31T08:36:55Z)
StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文参考訳（メタデータ） (2022-07-21T12:03:02Z)
Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文参考訳（メタデータ） (2022-03-23T11:33:27Z)
Attention and Encoder-Decoder based models for transforming articulatory movements at different speaking rates [60.02121449986413]
LSTMを用いたエンコーダデコーダアーキテクチャを提案する。変換された調音運動の振幅を原音と異なる速度で解析する。 AstNetは,既存の変換手法よりも音節運動の持続時間と範囲をモデル化できる。
論文参考訳（メタデータ） (2020-06-04T19:33:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。