論文の概要: Pishgu: Universal Path Prediction Architecture through Graph Isomorphism
and Attentive Convolution
- arxiv url: http://arxiv.org/abs/2210.08057v1
- Date: Fri, 14 Oct 2022 18:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:49:12.823595
- Title: Pishgu: Universal Path Prediction Architecture through Graph Isomorphism
and Attentive Convolution
- Title(参考訳): Pishgu: グラフ同型と注意的畳み込みによるユニバーサルパス予測アーキテクチャ
- Authors: Ghazal Alinezhad Noghre, Vinit Katariya, Armin Danesh Pazho,
Christopher Neff, Hamed Tabkhi
- Abstract要約: 本稿では、注意経路予測のための普遍グラフ同型アプローチであるPishguを提案する。
Pishguはグラフ同型ネットワークを利用して、各フレーム内の被写体間の依存性をキャプチャする。
我々は,複数の公用車両(鳥眼ビュー)と歩行者(鳥眼ビューおよび高角ビュー)の経路予測データセットへのアプローチの適用性を評価する。
- 参考スコア(独自算出の注目度): 2.6774008509840996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Path prediction is an essential task for several real-world real-time
applications, from autonomous driving and video surveillance to environmental
monitoring. Most existing approaches are computation-intensive and only target
a narrow domain (e.g., a specific point of view for a particular subject).
However, many real-time applications demand a universal path predictor that can
work across different subjects (vehicles, pedestrians), perspectives
(bird's-eye, high-angle), and scenes (sidewalk, highway). This article proposes
Pishgu, a universal graph isomorphism approach for attentive path prediction
that accounts for environmental challenges. Pishgu captures the
inter-dependencies within the subjects in each frame by taking advantage of
Graph Isomorphism Networks. In addition, an attention module is adopted to
represent the intrinsic relations of the subjects of interest with their
surroundings. We evaluate the adaptability of our approach to multiple publicly
available vehicle (bird's-eye view) and pedestrian (bird's-eye and high-angle
view) path prediction datasets. Pishgu's universal solution outperforms
existing domain-focused methods by producing state-of-the-art results for
vehicle bird's-eye view by 42% and 61% and pedestrian high-angle views by 23%
and 22% in terms of ADE and FDE, respectively. Moreover, we analyze the
domain-specific details for various datasets to understand their effect on path
prediction and model interpretation. Although our model is a single solution
for path prediction problems and defines a new standard in multiple domains, it
still has a comparable complexity to state-of-the-art models, which makes it
suitable for real-world application. We also report the latency and throughput
for all three domains on multiple embedded processors.
- Abstract(参考訳): 経路予測は、自動運転やビデオ監視、環境モニタリングなど、いくつかのリアルタイムアプリケーションにとって重要なタスクである。
既存のアプローチのほとんどは計算集約的であり、狭い領域(例えば特定の主題の特定の視点)のみを対象としている。
しかし、多くのリアルタイムアプリケーションは、異なる対象(車、歩行者)、視点(バードアイ、ハイアングル)、そしてシーン(サイドウォーク、ハイウェイ)にまたがるユニバーサルパス予測器を要求する。
本稿では,環境問題を考慮した注意経路予測のための普遍グラフ同型法であるpishguを提案する。
pishguはグラフ同型ネットワークを活用し、各フレームの被写体内の相互依存性をキャプチャする。
また、注目モジュールは、対象者とその周辺領域の本質的な関係を表すために採用されている。
我々は,複数の公用車両(鳥眼ビュー)と歩行者(鳥眼ビューおよび高角ビュー)の経路予測データセットへのアプローチの適用性を評価する。
ピシュグの普遍的解法は、既存の領域に着目した手法よりも、42%、61%、歩行者ハイアングルビューが23%、FDEが22%、それぞれ最先端の結果が得られている。
さらに、各データセットのドメイン固有の詳細を分析し、経路予測とモデル解釈への影響を理解する。
我々のモデルは経路予測問題の単一解であり、複数の領域で新しい標準を定義するが、それでも最先端のモデルに匹敵する複雑さを持ち、現実のアプリケーションに適している。
また、複数の組み込みプロセッサ上の3つのドメインすべてに対して、レイテンシとスループットを報告します。
関連論文リスト
- Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving [7.616422495497465]
不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-17T03:35:13Z) - Handling Distribution Shifts on Graphs: An Invariance Perspective [77.14319095965058]
グラフ上のノードレベルの予測にOOD問題を定式化する。
そこで我々は,探索から抽出までのリスク最小化という新たなドメイン不変学習手法を開発した。
理論的に有効なOOD解の保証を示すことによって,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-05T02:31:01Z) - MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction [42.563865078323204]
MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。
提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T21:36:53Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - Multi-Modal Hybrid Architecture for Pedestrian Action Prediction [14.032334569498968]
本研究では,歩行者の横断行動を予測するために,環境から取得したさまざまな情報ソースを組み込んだ新しいマルチモーダル予測アルゴリズムを提案する。
既存の2次元歩行者行動ベンチマークと新たに注釈付けされた3次元運転データセットを用いて,提案モデルが歩行者横断予測における最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-16T15:17:58Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - STINet: Spatio-Temporal-Interactive Network for Pedestrian Detection and
Trajectory Prediction [24.855059537779294]
本稿では、新しいエンドツーエンド2段階ネットワーク:spatio--Interactive Network(STINet)を提案する。
歩行者の3次元形状に加えて,歩行者ごとの時間情報をモデル化する。
提案手法は,1段目における現在位置と過去の位置の両方を予測し,各歩行者をフレーム間でリンクできるようにする。
論文 参考訳(メタデータ) (2020-05-08T18:43:01Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。