論文の概要: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts
- arxiv url: http://arxiv.org/abs/2410.05343v1
- Date: Mon, 7 Oct 2024 07:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:17:28.535823
- Title: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts
- Title(参考訳): EgoOops: 手続き的テキストを用いたエゴセントリックビデオからの誤検出用データセット
- Authors: Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori,
- Abstract要約: EgoOopsデータセットには、エゴセントリックなビデオ、手続きテキスト、3種類のアノテーションが含まれている。
ビデオテキストアライメントにより、ビデオと手続き的テキストの両方に基づいてミスを検出することができる。
ラベルや説明の誤りは、現実世界の間違いを詳細に分析することを可能にする。
- 参考スコア(独自算出の注目度): 3.0314828871620487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mistake action detection from egocentric videos is crucial for developing intelligent archives that detect workers' errors and provide feedback. Previous studies have been limited to specific domains, focused on detecting mistakes from videos without procedural texts, and analyzed whether actions are mistakes. To address these limitations, in this paper, we propose the EgoOops dataset, which includes egocentric videos, procedural texts, and three types of annotations: video-text alignment, mistake labels, and descriptions for mistakes. EgoOops covers five procedural domains and includes 50 egocentric videos. The video-text alignment allows the model to detect mistakes based on both videos and procedural texts. The mistake labels and descriptions enable detailed analysis of real-world mistakes. Based on EgoOops, we tackle two tasks: video-text alignment and mistake detection. For video-text alignment, we enhance the recent StepFormer model with an additional loss for fine-tuning. Based on the alignment results, we propose a multi-modal classifier to predict mistake labels. In our experiments, the proposed methods achieve higher performance than the baselines. In addition, our ablation study demonstrates the effectiveness of combining videos and texts. We will release the dataset and codes upon publication.
- Abstract(参考訳): エゴセントリックなビデオからの誤検出は、労働者のエラーを検出しフィードバックを提供するインテリジェントなアーカイブの開発に不可欠である。
これまでの研究は特定のドメインに限られており、手続き的なテキストを使わずにビデオから間違いを検出することに集中し、アクションが間違いであるかどうかを分析してきた。
本稿では,エゴセントリックなビデオ,手続き的テキスト,ビデオテキストアライメント,誤りラベル,ミス記述の3種類のアノテーションを含むEgoOopsデータセットを提案する。
EgoOopsは5つの手続きドメインをカバーし、50のエゴセントリックなビデオを含んでいる。
ビデオテキストアライメントにより、ビデオと手続き的テキストの両方に基づいてミスを検出することができる。
誤りラベルと説明は、現実世界の誤りの詳細な分析を可能にする。
EgoOopsに基づいて、ビデオテキストアライメントと誤り検出という2つのタスクに取り組む。
ビデオテキストアライメントのためには、直近のStepFormerモデルを拡張します。
このアライメント結果に基づいて,誤りラベルを予測するマルチモーダル分類器を提案する。
本実験では,提案手法はベースラインよりも高い性能を実現する。
さらに,本研究では,ビデオとテキストの組み合わせの有効性について検討した。
データセットとコードを公開時にリリースします。
関連論文リスト
- Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - PREGO: online mistake detection in PRocedural EGOcentric videos [49.72812518471056]
自己中心型ビデオにおける誤り検出のための,最初のオンライン一級分類モデルであるPregoを提案する。
PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。
手続き的誤り検出のオンラインベンチマークに適応する2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価した。
論文 参考訳(メタデータ) (2024-04-02T13:27:28Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。
ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。
本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-09T15:44:36Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。