論文の概要: Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2406.01486v2
- Date: Mon, 28 Oct 2024 18:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:36:56.051042
- Title: Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos
- Title(参考訳): タスクグラフ学習の差別化:エゴセントリックビデオからの手続き的活動表現とオンライン誤検出
- Authors: Luigi Seminara, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: 手続き的活動は、特定の目標を達成するための重要なステップのシーケンスである。
タスクグラフは、手続き的活動の人間的に理解可能な表現として現れてきた。
- 参考スコア(独自算出の注目度): 13.99137623722021
- License:
- Abstract: Procedural activities are sequences of key-steps aimed at achieving specific goals. They are crucial to build intelligent agents able to assist users effectively. In this context, task graphs have emerged as a human-understandable representation of procedural activities, encoding a partial ordering over the key-steps. While previous works generally relied on hand-crafted procedures to extract task graphs from videos, in this paper, we propose an approach based on direct maximum likelihood optimization of edges' weights, which allows gradient-based learning of task graphs and can be naturally plugged into neural network architectures. Experiments on the CaptainCook4D dataset demonstrate the ability of our approach to predict accurate task graphs from the observation of action sequences, with an improvement of +16.7% over previous approaches. Owing to the differentiability of the proposed framework, we also introduce a feature-based approach, aiming to predict task graphs from key-step textual or video embeddings, for which we observe emerging video understanding abilities. Task graphs learned with our approach are also shown to significantly enhance online mistake detection in procedural egocentric videos, achieving notable gains of +19.8% and +7.5% on the Assembly101-O and EPIC-Tent-O datasets. Code for replicating experiments is available at https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning.
- Abstract(参考訳): 手続き的活動は、特定の目標を達成するための重要なステップのシーケンスである。
彼らは、ユーザーを効果的に支援できるインテリジェントなエージェントを構築することが不可欠だ。
この文脈では、タスクグラフは手続き的活動の人間の理解可能な表現として現れ、キーステップ上の部分順序を符号化している。
従来,ビデオからタスクグラフを抽出するための手作り手法が一般的であったのに対して,本稿では,エッジの重みを直接最適化する手法を提案し,タスクグラフの勾配に基づく学習を可能にし,ニューラルネットワークアーキテクチャに自然にプラグインできる。
CaptainCook4Dデータセットの実験では、アクションシーケンスの観測から正確なタスクグラフを予測できることが示され、以前のアプローチよりも+16.7%向上した。
また,提案フレームワークの相違点から,キーステップのテキストやビデオの埋め込みからタスクグラフを予測し,新たな映像理解能力を観察することを目的とした機能ベースのアプローチも導入する。
このアプローチで学習したタスクグラフは、手続き型エゴセントリックビデオのオンライン誤り検出を著しく向上させ、アセンブリ101-OデータセットとEPIC-Tent-Oデータセットで+19.8%、+7.5%の顕著なゲインを達成した。
実験を複製するためのコードはhttps://github.com/fpv-iplab/Differentiable-Task-Graph-Learningで公開されている。
関連論文リスト
- Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention [10.149523817328921]
本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。
本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。
提案手法は最先端技術より優れ、18種類の意図認識の精度が7%向上した。
論文 参考訳(メタデータ) (2024-04-10T21:03:23Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - A Comprehensive Analytical Survey on Unsupervised and Semi-Supervised
Graph Representation Learning Methods [4.486285347896372]
本調査は,グラフ埋め込み手法のすべての主要なクラスを評価することを目的としている。
我々は,手動の特徴工学,行列分解,浅部ニューラルネットワーク,深部グラフ畳み込みネットワークなどの手法を含む分類学を用いてグラフ埋め込み手法を編成した。
我々はPyTorch GeometricおよびDGLライブラリ上で実験を設計し、異なるマルチコアCPUおよびGPUプラットフォーム上で実験を行った。
論文 参考訳(メタデータ) (2021-12-20T07:50:26Z) - Self-supervised Auxiliary Learning for Graph Neural Networks via
Meta-Learning [16.847149163314462]
グラフニューラルネットワークを効果的に学習するための,新しい自己監視型補助学習フレームワークを提案する。
本手法では,様々な補助タスクを用いて一次タスクを学習し,一般化性能を向上させる。
本手法は,任意のグラフニューラルネットワークに対して,手動ラベリングや追加データなしでプラグイン方式で適用することができる。
論文 参考訳(メタデータ) (2021-03-01T05:52:57Z) - Self-supervised Auxiliary Learning with Meta-paths for Heterogeneous
Graphs [21.617020380894488]
ヘテロジニアスグラフ上のグラフニューラルネットワークを学習するための,新しい自己教師付き補助学習法を提案する。
本手法は,任意のグラフニューラルネットワークに対して,手動ラベリングや追加データなしでプラグイン方式で適用することができる。
論文 参考訳(メタデータ) (2020-07-16T12:32:11Z) - GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。
自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。
3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-06-17T16:18:35Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。