Fugu-MT 論文翻訳(概要): EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos Referring to Procedural Texts

論文の概要: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos Referring to Procedural Texts

arxiv url: http://arxiv.org/abs/2410.05343v2
Date: Tue, 11 Feb 2025 07:17:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.671506
Title: EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos Referring to Procedural Texts
Title（参考訳）: EgoOops: 手続き的テキストを参照したエゴセントリックビデオからの誤検出用データセット
Authors: Yuto Haneji, Taichi Nishimura, Hirotaka Kameko, Keisuke Shirai, Tomoya Yoshida, Keiya Kajimura, Koki Yamamoto, Taiyu Cui, Tomohiro Nishimoto, Shinsuke Mori,
Abstract要約: 本稿では,EgoOopsデータセットを提案する。ビデオテキストアライメント、エラーラベル、ミスの説明の3つのタイプがある。実験結果から,手続き的テキストの導入は誤検出に不可欠であることが示唆された。
参考スコア（独自算出の注目度）: 3.0314828871620487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mistake action detection is crucial for developing intelligent archives that detect workers' errors and provide feedback. Existing studies have focused on visually apparent mistakes in free-style activities, resulting in video-only approaches to mistake detection. However, in text-following activities, models cannot determine the correctness of some actions without referring to the texts. Additionally, current mistake datasets rarely use procedural texts for video recording except for cooking. To fill these gaps, this paper proposes the EgoOops dataset, where egocentric videos record erroneous activities when following procedural texts across diverse domains. It features three types of annotations: video-text alignment, mistake labels, and descriptions for mistakes. We also propose a mistake detection approach, combining video-text alignment and mistake label classification to leverage the texts. Our experimental results show that incorporating procedural texts is essential for mistake detection. Data is available through https://y-haneji.github.io/EgoOops-project-page/.
Abstract（参考訳）: 作業者のエラーを検出し、フィードバックを提供するインテリジェントなアーカイブを開発するためには、誤った行動検出が不可欠である。既存の研究は、自由なスタイルのアクティビティにおける視覚的に明らかな誤りに焦点を当てており、結果としてビデオのみによる誤検出のアプローチが生み出されている。しかし、テキスト追跡活動では、モデルはテキストを参照することなく、あるアクションの正しさを判断できない。さらに、現在のミスデータセットでは、調理以外のビデオ記録に手続き的なテキストはめったに使われない。これらのギャップを埋めるために、EgoOopsデータセットを提案する。このデータセットでは、多様なドメインにまたがる手続き的テキストに従う際に、エゴセントリックなビデオが誤った活動を記録している。ビデオテキストアライメント、エラーラベル、ミスの説明の3つのタイプがある。また,ビデオテキストアライメントと誤りラベル分類を組み合わせた誤り検出手法を提案する。実験結果から,手続き的テキストの導入は誤検出に不可欠であることが示唆された。データはhttps://y-haneji.github.io/EgoOops-project-page/.comから入手できる。

関連論文リスト

Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文参考訳（メタデータ） (2024-09-12T06:50:45Z)
PREGO: online mistake detection in PRocedural EGOcentric videos [49.72812518471056]
自己中心型ビデオにおける誤り検出のための,最初のオンライン一級分類モデルであるPregoを提案する。 PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。手続き的誤り検出のオンラインベンチマークに適応する2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価した。
論文参考訳（メタデータ） (2024-04-02T13:27:28Z)
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文参考訳（メタデータ） (2023-12-15T19:16:21Z)
Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文参考訳（メタデータ） (2023-03-06T08:32:50Z)
Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文参考訳（メタデータ） (2022-10-22T00:22:55Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)
Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-09T15:44:36Z)
A Proposal of Automatic Error Correction in Text [0.0]
電子テキストにおけるオートグラフィエラーの自動認識と修正の応用を示す。この提案は、スペイン語の音声テキスト分類、単語類似性、単語辞書、統計測度、形態素解析、n-gramsに基づく言語モデルの一部を基礎としている。
論文参考訳（メタデータ） (2021-09-24T17:17:56Z)
Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。 Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文参考訳（メタデータ） (2021-07-02T22:37:03Z)
Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文参考訳（メタデータ） (2021-05-30T09:28:43Z)
AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。 AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文参考訳（メタデータ） (2020-08-03T08:40:01Z)
On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文参考訳（メタデータ） (2020-05-12T11:01:44Z)
Correcting the Autocorrect: Context-Aware Typographical Error Correction via Training Data Augmentation [38.10429793534442]
まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
論文参考訳（メタデータ） (2020-05-03T18:08:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。