論文の概要: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts
- arxiv url: http://arxiv.org/abs/2410.05343v1
- Date: Mon, 7 Oct 2024 07:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:17:28.535823
- Title: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos with Procedural Texts
- Title(参考訳): EgoOops: 手続き的テキストを用いたエゴセントリックビデオからの誤検出用データセット
- Authors: Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori,
- Abstract要約: EgoOopsデータセットには、エゴセントリックなビデオ、手続きテキスト、3種類のアノテーションが含まれている。
ビデオテキストアライメントにより、ビデオと手続き的テキストの両方に基づいてミスを検出することができる。
ラベルや説明の誤りは、現実世界の間違いを詳細に分析することを可能にする。
- 参考スコア(独自算出の注目度): 3.0314828871620487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mistake action detection from egocentric videos is crucial for developing intelligent archives that detect workers' errors and provide feedback. Previous studies have been limited to specific domains, focused on detecting mistakes from videos without procedural texts, and analyzed whether actions are mistakes. To address these limitations, in this paper, we propose the EgoOops dataset, which includes egocentric videos, procedural texts, and three types of annotations: video-text alignment, mistake labels, and descriptions for mistakes. EgoOops covers five procedural domains and includes 50 egocentric videos. The video-text alignment allows the model to detect mistakes based on both videos and procedural texts. The mistake labels and descriptions enable detailed analysis of real-world mistakes. Based on EgoOops, we tackle two tasks: video-text alignment and mistake detection. For video-text alignment, we enhance the recent StepFormer model with an additional loss for fine-tuning. Based on the alignment results, we propose a multi-modal classifier to predict mistake labels. In our experiments, the proposed methods achieve higher performance than the baselines. In addition, our ablation study demonstrates the effectiveness of combining videos and texts. We will release the dataset and codes upon publication.
- Abstract(参考訳): エゴセントリックなビデオからの誤検出は、労働者のエラーを検出しフィードバックを提供するインテリジェントなアーカイブの開発に不可欠である。
これまでの研究は特定のドメインに限られており、手続き的なテキストを使わずにビデオから間違いを検出することに集中し、アクションが間違いであるかどうかを分析してきた。
本稿では,エゴセントリックなビデオ,手続き的テキスト,ビデオテキストアライメント,誤りラベル,ミス記述の3種類のアノテーションを含むEgoOopsデータセットを提案する。
EgoOopsは5つの手続きドメインをカバーし、50のエゴセントリックなビデオを含んでいる。
ビデオテキストアライメントにより、ビデオと手続き的テキストの両方に基づいてミスを検出することができる。
誤りラベルと説明は、現実世界の誤りの詳細な分析を可能にする。
EgoOopsに基づいて、ビデオテキストアライメントと誤り検出という2つのタスクに取り組む。
ビデオテキストアライメントのためには、直近のStepFormerモデルを拡張します。
このアライメント結果に基づいて,誤りラベルを予測するマルチモーダル分類器を提案する。
本実験では,提案手法はベースラインよりも高い性能を実現する。
さらに,本研究では,ビデオとテキストの組み合わせの有効性について検討した。
データセットとコードを公開時にリリースします。
関連論文リスト
- Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - A Proposal of Automatic Error Correction in Text [0.0]
電子テキストにおけるオートグラフィエラーの自動認識と修正の応用を示す。
この提案は、スペイン語の音声テキスト分類、単語類似性、単語辞書、統計測度、形態素解析、n-gramsに基づく言語モデルの一部を基礎としている。
論文 参考訳(メタデータ) (2021-09-24T17:17:56Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation [38.10429793534442]
まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。
その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
論文 参考訳(メタデータ) (2020-05-03T18:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。