論文の概要: United We Stand, Divided We Fall: UnityGraph for Unsupervised Procedure
Learning from Videos
- arxiv url: http://arxiv.org/abs/2311.03550v1
- Date: Mon, 6 Nov 2023 21:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:55:39.598581
- Title: United We Stand, Divided We Fall: UnityGraph for Unsupervised Procedure
Learning from Videos
- Title(参考訳): United We Stand, Divided We Fall: UnityGraph for Unsupervised procedure Learning from Videos
- Authors: Siddhant Bansal, Chetan Arora, C.V. Jawahar
- Abstract要約: 同じタスクの複数のビデオが与えられた場合、プロシージャ学習は、キーステップを特定し、タスクを実行する順番を決定する。
これにより、ビデオ間の視点が欠如しているため、キーステップの発見が困難になる。
本稿では,タスクのすべての動画をグラフとして表現し,動画内と動画間の両方のコンテキストを得る,教師なしのグラフベースプロシージャ学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.53372462270059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given multiple videos of the same task, procedure learning addresses
identifying the key-steps and determining their order to perform the task. For
this purpose, existing approaches use the signal generated from a pair of
videos. This makes key-steps discovery challenging as the algorithms lack
inter-videos perspective. Instead, we propose an unsupervised Graph-based
Procedure Learning (GPL) framework. GPL consists of the novel UnityGraph that
represents all the videos of a task as a graph to obtain both intra-video and
inter-videos context. Further, to obtain similar embeddings for the same
key-steps, the embeddings of UnityGraph are updated in an unsupervised manner
using the Node2Vec algorithm. Finally, to identify the key-steps, we cluster
the embeddings using KMeans. We test GPL on benchmark ProceL, CrossTask, and
EgoProceL datasets and achieve an average improvement of 2% on third-person
datasets and 3.6% on EgoProceL over the state-of-the-art.
- Abstract(参考訳): 同じタスクの複数のビデオが与えられた場合、手順学習はキーステップを特定し、タスクを実行する順番を決定する。
この目的のために、既存のアプローチでは、2つのビデオから生成された信号を使用する。
これは、アルゴリズムがビデオ間の視点を欠いているため、キーステップの発見が困難になる。
代わりに,教師なしグラフ型手続き学習(gpl)フレームワークを提案する。
GPLは、ビデオ内のコンテキストとビデオ間のコンテキストの両方を取得するために、タスクのすべてのビデオをグラフとして表現する新しいUnityGraphで構成されている。
さらに、同じキーステップに対する同様の埋め込みを得るために、UnityGraphの埋め込みはNode2Vecアルゴリズムを使って教師なしの方法で更新される。
最後に、キーステップを特定するために、KMeansを使って埋め込みをクラスタ化する。
我々は、ベンチマークのProceL、CrossTask、EgoProceLでGPLをテストし、サードパーティのデータセットで2%、最先端でEgoProceLで3.6%の平均的な改善を実現した。
関連論文リスト
- Scalable Deep Metric Learning on Attributed Graphs [10.092560681589578]
本研究では,深度測定と非偏差学習を併用したグラフ埋め込み手法を提案する。
マルチクラス損失関数に基づいて、半教師なし学習のためのDMTと教師なしケースのためのDMAT-iという2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-20T03:34:31Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - GraphCoCo: Graph Complementary Contrastive Learning [65.89743197355722]
グラフコントラスト学習(GCL)は、手作業によるアノテーションの監督なしに、グラフ表現学習(GRL)において有望な性能を示した。
本稿では,この課題に対処するため,グラフココというグラフ補完型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T02:58:36Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Cross-Domain Few-Shot Graph Classification [7.23389716633927]
本稿では,非等価な特徴空間を持つ領域間の数ショットグラフ分類の問題について検討する。
本稿では,3つの連続したグラフビュー,1つのコンテキストと2つのトポロジ的ビューを利用するアテンションベースグラフエンコーダを提案する。
提案するエンコーダは,メトリックベースのメタラーニングフレームワークと組み合わせることで,平均メタテストの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2022-01-20T16:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。