論文の概要: BIAS: A Biologically Inspired Algorithm for Video Saliency Detection
- arxiv url: http://arxiv.org/abs/2604.08858v1
- Date: Fri, 10 Apr 2026 01:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.628015
- Title: BIAS: A Biologically Inspired Algorithm for Video Saliency Detection
- Title(参考訳): BIAS: バイオインスパイアされたビデオ唾液度検出アルゴリズム
- Authors: Zhao-ji Zhang, Ya-tang Li,
- Abstract要約: 連続ストリームにおける動的視覚塩分濃度検出のための高速で生物学的にインスパイアされたモデルであるBIASを提案する。
Itti-Kochフレームワーク上に構築されたBIASは、網膜にインスパイアされたモーション検出器を内蔵し、時間的特徴を抽出する。
FOAsは、情報と全ての勝者の競争のバランスをとる、欲張りの多ガウス運動ピーク適合アルゴリズムを用いて識別される。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present BIAS, a fast, biologically inspired model for dynamic visual saliency detection in continuous video streams. Building on the Itti--Koch framework, BIAS incorporates a retina-inspired motion detector to extract temporal features, enabling the generation of saliency maps that integrate both static and motion information. Foci of attention (FOAs) are identified using a greedy multi-Gaussian peak-fitting algorithm that balances winner-take-all competition with information maximization. BIAS detects salient regions with millisecond-scale latency and outperforms heuristic-based approaches and several deep-learning models on the DHF1K dataset, particularly in videos dominated by bottom-up attention. Applied to traffic accident analysis, BIAS demonstrates strong real-world utility, achieving state-of-the-art performance in cause-effect recognition and anticipating accidents up to 0.72 seconds before manual annotation with reliable accuracy. Overall, BIAS bridges biological plausibility and computational efficiency to achieve interpretable, high-speed dynamic saliency detection.
- Abstract(参考訳): 本稿では,連続ビデオストリームにおける動的視覚塩分濃度検出のための高速生物学的モデルBIASを提案する。
Itti-Kochフレームワーク上に構築されているBIASは、網膜にインスパイアされた運動検出器を組み込んで、時間的特徴を抽出し、静的情報と運動情報の両方を統合する唾液マップの生成を可能にする。
Foci of attention (FOAs) は、情報最大化と全ての勝者の競争のバランスをとる、欲張りのマルチガウスピーク適合アルゴリズムを用いて識別される。
BIASはミリ秒スケールのレイテンシを持ち、DHF1Kデータセット上のヒューリスティックベースのアプローチといくつかのディープラーニングモデル、特にボトムアップの注目に支配されるビデオにおいて、優れたパフォーマンスを発揮する。
交通事故解析に適用すると、BIASは強力な実世界の実用性を示し、原因影響認識における最先端のパフォーマンスを達成し、手動の注釈を信頼性の高い精度で最大0.72秒前に事故を予想する。
BIASは、生物学的妥当性と計算効率を橋渡し、解釈可能な高速な動的塩分検出を実現する。
関連論文リスト
- Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets [71.53287557600177]
イベントベースの異常検出を統一研究の方向性として確立するための第一歩を踏み出す。
まず、同期イベントとRGB記録を特徴とする、ビデオ異常検出のための複数のイベントストリームベースのベンチマークを構築した。
次に,EVent中心のビデオ異常検出フレームワークであるEWADを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:33Z) - MOOSE: Pay Attention to Temporal Dynamics for Video Understanding via Optical Flows [21.969862773424314]
MOOSEは、光フローと空間埋め込みを統合し、時間情報を効率的にモデル化する新しい時間中心ビデオエンコーダである。
従来のモデルとは異なり、MOOSEはビデオモデルをスクラッチからトレーニングする代わりに、リッチで広く訓練済みの視覚的および光学的フローエンコーダを利用する。
論文 参考訳(メタデータ) (2025-06-01T18:53:27Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial-Temporal Dynamics [0.7083699704958353]
本稿では, 時間的時間的特徴抽出手法として, 軽量な圧縮励起深層学習手法を提案する。
提案したモデルは、Ninapro DB2、DB4、DB5データセットでそれぞれ96.41%、92.40%、93.34%の精度でテストされた。
論文 参考訳(メタデータ) (2025-04-04T07:11:12Z) - Extending Information Bottleneck Attribution to Video Sequences [4.996373299748921]
本稿では,映像系列への帰属にインフォメーション・ボトルネックを適応させることにより,説明可能な映像分類のための新しいアプローチであるVIBAを紹介する。
以上の結果から,VIBAは時間的・空間的に一貫した説明を発生し,人間のアノテーションと密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2025-01-28T12:19:44Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z) - Real-Time Driver Monitoring Systems through Modality and View Analysis [28.18784311981388]
ドライバーの気晴らしが道路事故の主要な原因であることが知られている。
State-of-the-artメソッドはレイテンシを無視しながら精度を優先する。
本稿では,ビデオフレーム間の時間的関係を無視した時間効率な検出モデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T21:22:41Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。