論文の概要: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos Referring to Procedural Texts
- arxiv url: http://arxiv.org/abs/2410.05343v2
- Date: Tue, 11 Feb 2025 07:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:24.914697
- Title: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos Referring to Procedural Texts
- Title(参考訳): EgoOops: 手続き的テキストを参照したエゴセントリックビデオからの誤検出用データセット
- Authors: Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori,
- Abstract要約: 本稿では,EgoOopsデータセットを提案する。
ビデオテキストアライメント、エラーラベル、ミスの説明の3つのタイプがある。
実験結果から,手続き的テキストの導入は誤検出に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 3.0314828871620487
- License:
- Abstract: Mistake action detection is crucial for developing intelligent archives that detect workers' errors and provide feedback. Existing studies have focused on visually apparent mistakes in free-style activities, resulting in video-only approaches to mistake detection. However, in text-following activities, models cannot determine the correctness of some actions without referring to the texts. Additionally, current mistake datasets rarely use procedural texts for video recording except for cooking. To fill these gaps, this paper proposes the EgoOops dataset, where egocentric videos record erroneous activities when following procedural texts across diverse domains. It features three types of annotations: video-text alignment, mistake labels, and descriptions for mistakes. We also propose a mistake detection approach, combining video-text alignment and mistake label classification to leverage the texts. Our experimental results show that incorporating procedural texts is essential for mistake detection. Data is available through https://y-haneji.github.io/EgoOops-project-page/.
- Abstract(参考訳): 作業者のエラーを検出し、フィードバックを提供するインテリジェントなアーカイブを開発するためには、誤った行動検出が不可欠である。
既存の研究は、自由なスタイルのアクティビティにおける視覚的に明らかな誤りに焦点を当てており、結果としてビデオのみによる誤検出のアプローチが生み出されている。
しかし、テキスト追跡活動では、モデルはテキストを参照することなく、あるアクションの正しさを判断できない。
さらに、現在のミスデータセットでは、調理以外のビデオ記録に手続き的なテキストはめったに使われない。
これらのギャップを埋めるために、EgoOopsデータセットを提案する。このデータセットでは、多様なドメインにまたがる手続き的テキストに従う際に、エゴセントリックなビデオが誤った活動を記録している。
ビデオテキストアライメント、エラーラベル、ミスの説明の3つのタイプがある。
また,ビデオテキストアライメントと誤りラベル分類を組み合わせた誤り検出手法を提案する。
実験結果から,手続き的テキストの導入は誤検出に不可欠であることが示唆された。
データはhttps://y-haneji.github.io/EgoOops-project-page/.comから入手できる。
関連論文リスト
- Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - A Proposal of Automatic Error Correction in Text [0.0]
電子テキストにおけるオートグラフィエラーの自動認識と修正の応用を示す。
この提案は、スペイン語の音声テキスト分類、単語類似性、単語辞書、統計測度、形態素解析、n-gramsに基づく言語モデルの一部を基礎としている。
論文 参考訳(メタデータ) (2021-09-24T17:17:56Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation [38.10429793534442]
まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。
その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
論文 参考訳(メタデータ) (2020-05-03T18:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。