Fugu-MT 論文翻訳(概要): Temporal-contextual Event Learning for Pedestrian Crossing Intent Prediction

論文の概要: Temporal-contextual Event Learning for Pedestrian Crossing Intent Prediction

arxiv url: http://arxiv.org/abs/2504.06292v1
Date: Fri, 04 Apr 2025 10:44:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 01:12:46.73739
Title: Temporal-contextual Event Learning for Pedestrian Crossing Intent Prediction
Title（参考訳）: 歩行者クロスインテント予測のための時間・文脈イベント学習
Authors: Hongbin Liang, Hezhe Qiao, Wei Huang, Qizhou Wang, Mingsheng Shang, Lin Chen,
Abstract要約: TCL(UnderlineTemporal-underlinecontextual Event UnderlineLearning)と呼ばれる新しいアプローチを導入する。観測されたビデオフレームを重要な時間的イベントにクラスタ化することで、冗長性を管理することを目的としている。臨界事象における重要な情報に対する時間的特徴抽出と文脈的注意により、TCLは歩行者横断意図予測のための表現表現を学習することができる。
参考スコア（独自算出の注目度）: 17.458179220742824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring the safety of vulnerable road users through accurate prediction of pedestrian crossing intention (PCI) plays a crucial role in the context of autonomous and assisted driving. Analyzing the set of observation video frames in ego-view has been widely used in most PCI prediction methods to forecast the cross intent. However, they struggle to capture the critical events related to pedestrian behaviour along the temporal dimension due to the high redundancy of the video frames, which results in the sub-optimal performance of PCI prediction. Our research addresses the challenge by introducing a novel approach called \underline{T}emporal-\underline{c}ontextual Event \underline{L}earning (TCL). The TCL is composed of the Temporal Merging Module (TMM), which aims to manage the redundancy by clustering the observed video frames into multiple key temporal events. Then, the Contextual Attention Block (CAB) is employed to adaptively aggregate multiple event features along with visual and non-visual data. By synthesizing the temporal feature extraction and contextual attention on the key information across the critical events, TCL can learn expressive representation for the PCI prediction. Extensive experiments are carried out on three widely adopted datasets, including PIE, JAAD-beh, and JAAD-all. The results show that TCL substantially surpasses the state-of-the-art methods. Our code can be accessed at https://github.com/dadaguailhb/TCL.
Abstract（参考訳）: 歩行者横断意図(PCI)の正確な予測を通じて、脆弱な道路利用者の安全を確保することは、自律運転と補助運転の文脈において重要な役割を担っている。エゴビューにおける観察ビデオフレームの集合の解析は、ほとんどのPCI予測手法でクロスインテントの予測に広く用いられている。しかし,ビデオフレームの冗長性が高く,PCI予測の準最適性能をもたらすため,時間的次元に沿った歩行者行動に関わる重要な事象を捉えるのに苦慮している。本研究は,新しいアプローチである \underline{T}emporal-\underline{c}ontextual Event \underline{L}earning (TCL) の導入による課題に対処する。 TCLはTMM(Temporal Merging Module)から構成されており、観測されたビデオフレームを複数の時間的事象にクラスタ化することで冗長性を管理することを目的としている。次に、コンテキスト注意ブロック(CAB)を使用して、視覚的および非視覚的データとともに、複数のイベント機能を適応的に集約する。臨界事象における重要な情報に対する時間的特徴抽出と文脈的注意を合成することにより、TCLはPCI予測のための表現表現を学ぶことができる。 PIE、JAAD-beh、JAAD-allを含む広く採用されている3つのデータセットに対して大規模な実験が行われた。その結果,TCLは最先端の手法を大幅に上回っていることがわかった。私たちのコードはhttps://github.com/dadaguailhb/TCLでアクセスできます。

関連論文リスト

Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos [32.71627274876863]
本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスクに沿ったアクションシーケンスを生成することを目的とする。これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。本研究では,拡散モデル内に潜時空間時間モジュールを導入した仮設仮設時間補間拡散モデルを提案する。
論文参考訳（メタデータ） (2025-07-04T08:54:59Z)
ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning [57.767536707234036]
本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。 Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
論文参考訳（メタデータ） (2025-07-02T23:41:31Z)
Precise Event Spotting in Sports Videos: Solving Long-Range Dependency and Class Imbalance [25.289420629683477]
イベントスポッティング(英: Event Spotting、PES)は、特にスポーツにおいて、長くトリミングされていないビデオからイベントとそのクラスを特定することを目的としている。既存の方法は、主に大きな事前訓練されたネットワークの機能に依存しており、タスクには適していないかもしれない。本稿では, エンド・ツー・エンドの設計したネットワークが, 最先端のSOTA(State-of-the-art)手法より優れていることを示す。
論文参考訳（メタデータ） (2025-02-28T19:53:42Z)
Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。 Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文参考訳（メタデータ） (2024-07-25T06:03:02Z)
Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文参考訳（メタデータ） (2023-08-09T17:20:14Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。 State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文参考訳（メタデータ） (2022-10-17T21:22:41Z)
Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。 PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文参考訳（メタデータ） (2021-06-22T17:57:24Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)
Predicting Pedestrian Crossing Intention with Feature Fusion and Spatio-Temporal Attention [0.0]
歩行者の交差の意図は都市運転のためにリアルタイムで認識されるべきです。最近の研究は、このタスクに視覚ベースのディープニューラルネットワークモデルを使用することの可能性を示している。本研究は,歩行者横断意図予測において,本質的に異なる時間的特徴を融合するニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-04-12T14:10:25Z)
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning [84.90458333884443]
本稿では、物理オブジェクトやイベントをビデオや言語から基盤とする統合フレームワークであるDynamic Concept Learner(DCL)を紹介する。 dclは、フレーム、グランドビジュアルプロパティ、物理イベントのオブジェクトを検出し、関連付けることができ、イベント間の因果関係を理解し、将来の予測と偽りの予測を行い、これらのプレゼンテーションをクエリに利用することができる。 DCLは、地上トラス属性や衝突ラベルをトレーニング用シミュレーションから使用することなく、困難な因果的ビデオ推論データセットであるCLEVRERで最先端のパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-03-30T17:59:48Z)
Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文参考訳（メタデータ） (2020-03-26T23:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。