論文の概要: Rethinking Top Probability from Multi-view for Distracted Driver Behaviour Localization
- arxiv url: http://arxiv.org/abs/2411.12525v1
- Date: Tue, 19 Nov 2024 14:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:00.219445
- Title: Rethinking Top Probability from Multi-view for Distracted Driver Behaviour Localization
- Title(参考訳): 減量運転行動の多視点からのトップ確率を再考する
- Authors: Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim,
- Abstract要約: アクションローカライゼーションタスクは、現実世界の運転シナリオでキャプチャされたビデオデータから人間の行動や行動を認識し、理解することを目的としている。
従来の研究では、認識モデルを適用した上で、確率に基づく後処理を行うことで、優れた動作ローカライゼーション性能を示した。
本研究では,自己監督学習に基づく行動認識モデルを用いて,注意をそらした行動を検出し,潜在的な行動確率を与える。
- 参考スコア(独自算出の注目度): 6.531367337657802
- License:
- Abstract: Naturalistic driving action localization task aims to recognize and comprehend human behaviors and actions from video data captured during real-world driving scenarios. Previous studies have shown great action localization performance by applying a recognition model followed by probability-based post-processing. Nevertheless, the probabilities provided by the recognition model frequently contain confused information causing challenge for post-processing. In this work, we adopt an action recognition model based on self-supervise learning to detect distracted activities and give potential action probabilities. Subsequently, a constraint ensemble strategy takes advantages of multi-camera views to provide robust predictions. Finally, we introduce a conditional post-processing operation to locate distracted behaviours and action temporal boundaries precisely. Experimenting on test set A2, our method obtains the sixth position on the public leaderboard of track 3 of the 2024 AI City Challenge.
- Abstract(参考訳): 自然な運転行動ローカライゼーションタスクは、現実の運転シナリオで捉えた映像データから人間の行動や行動を認識し、理解することを目的としている。
従来の研究では、認識モデルを適用した上で、確率に基づく後処理を行うことで、優れた動作ローカライゼーション性能を示した。
それでも、認識モデルが提供する確率は、しばしば、後処理の課題を引き起こす混乱した情報を含む。
本研究では,自己監督学習に基づく行動認識モデルを用いて,注意をそらした行動を検出し,潜在的な行動確率を与える。
その後、制約アンサンブル戦略は、堅牢な予測を提供するためにマルチカメラビューの利点を利用する。
最後に,不注意な動作や時間的境界を正確に検出するための条件付き後処理操作を導入する。
テストセットA2を用いて実験を行い,2024年AIシティチャレンジの3トラックの6位に到達した。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - DeepLocalization: Using change point detection for Temporal Action Localization [2.4502578110136946]
DeepLocalizationは、ドライバーの行動を監視するために明示的に調整されたアクションのリアルタイムローカライゼーションのために考案された革新的なフレームワークである。
我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。
論文 参考訳(メタデータ) (2024-04-18T15:25:59Z) - Versatile Navigation under Partial Observability via Value-guided Diffusion Policy [14.967107015417943]
部分観測可能条件下での2次元および3次元経路計画のための多目的拡散に基づくアプローチを提案する。
具体的には、価値誘導拡散政策は、まず様々な段階にわたって行動を予測する計画を生成する。
次に、状態推定を伴う微分可能なプランナーを用いて値関数を導出し、エージェントの探索とゴール探索の振る舞いを指示する。
論文 参考訳(メタデータ) (2024-04-01T19:52:08Z) - Evidential Active Recognition: Intelligent and Prudent Open-World
Embodied Perception [21.639429724987902]
アクティブな認識により、ロボットは新しい観察を探索し、望ましくない視界を回避しながらより多くの情報を得ることができる。
ほとんどの認識モジュールはクローズドワールドの仮定の下で開発されており、現在の観測における対象物体の欠如のような予期せぬ入力を処理できない。
本稿では,有効認識を逐次的エビデンス収集プロセスとして扱うことを提案する。
論文 参考訳(メタデータ) (2023-11-23T03:51:46Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Uncertainty-Aware Vehicle Orientation Estimation for Joint
Detection-Prediction Models [12.56249869551208]
オリエンテーションは、自律システムの下流モジュールにとって重要な特性である。
本稿では,既存のモデルを拡張し,共同物体検出と動き予測を行う手法を提案する。
さらに、この手法は予測の不確かさを定量化することができ、推定された向きが反転する確率を出力することができる。
論文 参考訳(メタデータ) (2020-11-05T21:59:44Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。