論文の概要: CaptainCook4D: A Dataset for Understanding Errors in Procedural Activities
- arxiv url: http://arxiv.org/abs/2312.14556v3
- Date: Fri, 01 Nov 2024 16:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:22.224087
- Title: CaptainCook4D: A Dataset for Understanding Errors in Procedural Activities
- Title(参考訳): CaptainCook4D: 手続き的アクティビティにおけるエラーを理解するためのデータセット
- Authors: Rohith Peddi, Shivvrat Arya, Bharath Challa, Likhitha Pallapothula, Akshay Vyas, Bhavya Gouripeddi, Jikai Wang, Qifan Zhang, Vasundhara Komaragiri, Eric Ragan, Nicholas Ruozzi, Yu Xiang, Vibhav Gogate,
- Abstract要約: 新しいエゴセントリックな4DデータセットであるCaptainCook4Dは、実際のキッチン環境でレシピを実行する人々の384の録音(94.5時間)で構成されています。
このデータセットは、2つの異なるタイプのアクティビティで構成されている。1つは参加者が提供されたレシピの指示に従属し、もう1つはエラーを逸脱し誘発する。
- 参考スコア(独自算出の注目度): 12.38265411170993
- License:
- Abstract: Following step-by-step procedures is an essential component of various activities carried out by individuals in their daily lives. These procedures serve as a guiding framework that helps to achieve goals efficiently, whether it is assembling furniture or preparing a recipe. However, the complexity and duration of procedural activities inherently increase the likelihood of making errors. Understanding such procedural activities from a sequence of frames is a challenging task that demands an accurate interpretation of visual information and the ability to reason about the structure of the activity. To this end, we collect a new egocentric 4D dataset, CaptainCook4D, comprising 384 recordings (94.5 hours) of people performing recipes in real kitchen environments. This dataset consists of two distinct types of activity: one in which participants adhere to the provided recipe instructions and another in which they deviate and induce errors. We provide 5.3K step annotations and 10K fine-grained action annotations and benchmark the dataset for the following tasks: supervised error recognition, multistep localization, and procedure learning
- Abstract(参考訳): ステップバイステップの手順は、日常生活において個人が行う様々な活動に不可欠な要素である。
これらの手順は、家具の組み立てやレシピの作成など、効率的に目標を達成するための指針となる。
しかし、手続き的活動の複雑さと持続性は本質的にエラーを起こす可能性を高める。
このような手続き的アクティビティを一連のフレームから理解することは、視覚情報の正確な解釈とアクティビティの構造を推論する能力を必要とする難しいタスクである。
この目的のために、私たちは、実キッチン環境でレシピを実行する人々の384の録音(94.5時間)を含む、新しいエゴセントリックな4DデータセットであるCaptainCook4Dを収集しました。
このデータセットは、2つの異なるタイプのアクティビティで構成されている。1つは参加者が提供されたレシピの指示に従属し、もう1つはエラーを逸脱し誘発する。
我々は5.3Kステップアノテーションと10Kきめ細かいアクションアノテーションを提供し、以下のタスクのデータセットをベンチマークする:教師付きエラー認識、マルチステップローカライゼーション、手続き学習。
関連論文リスト
- NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - IndustReal: A Dataset for Procedure Step Recognition Handling Execution
Errors in Egocentric Videos in an Industrial-Like Setting [7.561148568365396]
手順ステップ認識(PSR)の新たな課題について紹介する。
PSRは、手続き段階の正しい完了と順序を認識することに焦点を当てている。
マルチモーダルなIndustRealデータセットも提示する。
論文 参考訳(メタデータ) (2023-10-26T11:44:29Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。