論文の概要: Task Graph Maximum Likelihood Estimation for Procedural Activity Understanding in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2502.17753v1
- Date: Tue, 25 Feb 2025 01:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:24.468968
- Title: Task Graph Maximum Likelihood Estimation for Procedural Activity Understanding in Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおける手続き的活動理解のためのタスクグラフの最大値推定
- Authors: Luigi Seminara, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: 手続き的活動からタスクグラフを学習するための勾配に基づくアプローチ
我々は,CaptainCook4D,EgoPER,EgoProceLに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 13.99137623722021
- License:
- Abstract: We introduce a gradient-based approach for learning task graphs from procedural activities, improving over hand-crafted methods. Our method directly optimizes edge weights via maximum likelihood, enabling integration into neural architectures. We validate our approach on CaptainCook4D, EgoPER, and EgoProceL, achieving +14.5%, +10.2%, and +13.6% F1-score improvements. Our feature-based approach for predicting task graphs from textual/video embeddings demonstrates emerging video understanding abilities. We also achieved top performance on the procedure understanding benchmark on Ego-Exo4D and significantly improved online mistake detection (+19.8% on Assembly101-O, +6.4% on EPIC-Tent-O). Code: https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning.
- Abstract(参考訳): 手続き的活動からタスクグラフを学習するための勾配に基づくアプローチを導入し,手作りの手法を改良する。
提案手法は, エッジウェイトを最大化することで直接最適化し, ニューラルアーキテクチャへの統合を可能にする。
我々は、CaptainCook4D、EgoPER、EgoProceLに対するアプローチを検証し、+14.5%、+10.2%、+13.6%のF1スコア改善を実現した。
テキスト/ビデオの埋め込みからタスクグラフを予測する機能ベースのアプローチは,新たな映像理解能力を示す。
また,Ego-Exo4Dの手順理解ベンチマークでもトップパフォーマンスを達成し,オンライン誤り検出を著しく改善した(アセンブリ101-Oでは+19.8%,EPIC-Tent-Oでは+6.4%)。
コード:https://github.com/fpv-iplab/Differentiable-Task-Graph-Learning
関連論文リスト
- When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos [13.99137623722021]
手続き的活動は、特定の目標を達成するための重要なステップのシーケンスである。
タスクグラフは、手続き的活動の人間的に理解可能な表現として現れてきた。
論文 参考訳(メタデータ) (2024-06-03T16:11:39Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Local Masking Meets Progressive Freezing: Crafting Efficient Vision
Transformers for Self-Supervised Learning [0.0]
視覚変換器(ViT)のための自己教師型学習への革新的アプローチを提案する。
本手法は, ViTにおける初期層トレーニングの効率化と高速化に重点を置いている。
提案手法は,初期層における効率的な学習を促進する,新しいマルチスケール再構築プロセスを採用する。
論文 参考訳(メタデータ) (2023-12-02T11:10:09Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Using Graph Algorithms to Pretrain Graph Completion Transformers [8.327657957422833]
自己教師付き事前トレーニングは、下流グラフ、リンク、ノード分類タスクのパフォーマンスを向上させることができる。
複数のグラフアルゴリズムを用いて構築し,外部データと組み合わせない5種類の事前学習信号について検討する。
本稿では,情報ゲインによって誘導される経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-14T01:41:10Z) - GraphCoCo: Graph Complementary Contrastive Learning [65.89743197355722]
グラフコントラスト学習(GCL)は、手作業によるアノテーションの監督なしに、グラフ表現学習(GRL)において有望な性能を示した。
本稿では,この課題に対処するため,グラフココというグラフ補完型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T02:58:36Z) - KGE-CL: Contrastive Learning of Knowledge Graph Embeddings [64.67579344758214]
本稿では,知識グラフ埋め込みのための簡易かつ効率的な学習フレームワークを提案する。
これは、関連するエンティティと異なる三重項におけるエンティティ-リレーションのカップルのセマンティック距離を短縮することができる。
WN18RRデータセットで51.2% MRR、46.8% Hits@1、59.1% MRR、51.8% Hits@1、YAGO3-10データセットで達成できる。
論文 参考訳(メタデータ) (2021-12-09T12:45:33Z) - Self-supervised Semi-supervised Learning for Data Labeling and Quality
Evaluation [10.483508279350195]
提案手法では,効率的なデータラベリングとアノテーション検証の課題に対処する。
本稿では,自己教師付き半教師付き学習を活用し,データラベリングや検証タスクの構築に利用する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-22T00:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。