論文の概要: Exploring Ordinal Bias in Action Recognition for Instructional Videos
- arxiv url: http://arxiv.org/abs/2504.06580v1
- Date: Wed, 09 Apr 2025 05:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:30.710822
- Title: Exploring Ordinal Bias in Action Recognition for Instructional Videos
- Title(参考訳): インストラクショナルビデオにおける行動認識における正規バイアスの探索
- Authors: Joochan Kim, Minjoon Jung, Byoung-Tak Zhang,
- Abstract要約: アクション認識モデルは、真のビデオ理解よりも、支配的なデータセット固有のアクションシーケンスに依存することが多い。
本稿では,頻繁に発生するアクションのフレームをマスクするアクションマスキングと,アクションセグメントの順序をランダム化するシーケンスシャッフルという2つの効果的なビデオ操作手法を提案する。
- 参考スコア(独自算出の注目度): 18.30575202965141
- License:
- Abstract: Action recognition models have achieved promising results in understanding instructional videos. However, they often rely on dominant, dataset-specific action sequences rather than true video comprehension, a problem that we define as ordinal bias. To address this issue, we propose two effective video manipulation methods: Action Masking, which masks frames of frequently co-occurring actions, and Sequence Shuffling, which randomizes the order of action segments. Through comprehensive experiments, we demonstrate that current models exhibit significant performance drops when confronted with nonstandard action sequences, underscoring their vulnerability to ordinal bias. Our findings emphasize the importance of rethinking evaluation strategies and developing models capable of generalizing beyond fixed action patterns in diverse instructional videos.
- Abstract(参考訳): 行動認識モデルは教育ビデオの理解において有望な結果を得た。
しかし、それらは真のビデオ理解ではなく、支配的なデータセット固有のアクションシーケンスに依存していることが多い。
この問題に対処するために、頻繁に発生するアクションのフレームをマスクするアクションマスキングと、アクションセグメントの順序をランダム化するシーケンスシャッフルという2つの効果的なビデオ操作手法を提案する。
包括的実験により、現在のモデルでは、非標準アクションシーケンスに直面すると、大きな性能低下を示し、その脆弱性を順序バイアスに強調する。
本研究は, 評価戦略の再考の重要性を強調し, 多様な指導ビデオにおいて, 一定の行動パターンを超えて一般化可能なモデルを開発することの重要性を強調した。
関連論文リスト
- Temporal Divide-and-Conquer Anomaly Actions Localization in Semi-Supervised Videos with Hierarchical Transformer [0.9208007322096532]
異常な行動の検出と位置決めは、セキュリティと高度な監視システムにおいて重要な役割を果たす。
本稿では,異常ビデオにおける観察行動の重要性を評価するために,階層型トランスフォーマーモデルを提案する。
本手法は, 親映像を階層的に複数の時間的児童事例に区分し, 親映像の異常の分類における子ノードの影響を計測する。
論文 参考訳(メタデータ) (2024-08-24T18:12:58Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Leveraging Self-Supervised Training for Unintentional Action Recognition [82.19777933440143]
我々は、アクションが意図的なものから意図しないものへと移行するビデオのポイントを特定したい。
本研究では,動き速度,動き方向,意図しない動作を認識するために,固有バイアスを利用する多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T21:36:36Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z) - Evidential Deep Learning for Open Set Action Recognition [36.350348194248014]
本研究では,行動認識問題を顕在的深層学習(EDL)の観点から定式化する。
コントラスト学習により学習した表現を劣化させるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-21T15:45:37Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。