論文の概要: GraphVid: It Only Takes a Few Nodes to Understand a Video
- arxiv url: http://arxiv.org/abs/2207.01375v1
- Date: Mon, 4 Jul 2022 12:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:32:14.271105
- Title: GraphVid: It Only Takes a Few Nodes to Understand a Video
- Title(参考訳): graphvid:ビデオを理解するのにほんの数ノードしかかからない
- Authors: Eitan Kosman and Dotan Di Castro
- Abstract要約: 視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。
我々は,スーパーピクセルをグラフノードとして考慮し,ビデオのスーパーピクセルベースグラフ表現を構築した。
グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a concise representation of videos that encode perceptually
meaningful features into graphs. With this representation, we aim to leverage
the large amount of redundancies in videos and save computations. First, we
construct superpixel-based graph representations of videos by considering
superpixels as graph nodes and create spatial and temporal connections between
adjacent superpixels. Then, we leverage Graph Convolutional Networks to process
this representation and predict the desired output. As a result, we are able to
train models with much fewer parameters, which translates into short training
periods and a reduction in computation resource requirements. A comprehensive
experimental study on the publicly available datasets Kinetics-400 and Charades
shows that the proposed method is highly cost-effective and uses limited
commodity hardware during training and inference. It reduces the computational
requirements 10-fold while achieving results that are comparable to
state-of-the-art methods. We believe that the proposed approach is a promising
direction that could open the door to solving video understanding more
efficiently and enable more resource limited users to thrive in this research
field.
- Abstract(参考訳): 視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。
この表現を用いて,ビデオの冗長性を多用し,計算を省くことを目的とする。
まず,スーパーピクセルをグラフノードとして考慮し,隣接するスーパーピクセル間の空間的および時間的接続を作成することで,ビデオのスーパーピクセルベースのグラフ表現を構築する。
次に、グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
その結果,より少ないパラメータでモデルのトレーニングが可能となり,短いトレーニング期間と計算資源要求の削減が可能となった。
公開データセットであるkinetics-400とcharadesに関する包括的実験により、提案手法は費用効率が高く、トレーニングや推論に限定的なコモディティハードウェアを使用することが示された。
計算要件を10倍に削減し、最先端の手法に匹敵する結果を得る。
提案手法はビデオ理解をより効率的に解き、より多くのリソースを制限されたユーザーがこの研究分野で成長できるための扉を開く有望な方向であると考えている。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z) - Fast Interactive Video Object Segmentation with Graph Neural Networks [0.0]
本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワークに基づくアプローチを提案する。
我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。
論文 参考訳(メタデータ) (2021-03-05T17:37:12Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - About Graph Degeneracy, Representation Learning and Scalability [2.029783382155471]
ウォークベースグラフ表現学習アルゴリズムの時間とメモリ消費を削減するために,Kコア分解を利用した2つの手法を提案する。
提案手法の有効性を,いくつかの学術的データセットを用いて評価した。
論文 参考訳(メタデータ) (2020-09-04T09:39:43Z) - SIGN: Scalable Inception Graph Neural Networks [4.5158585619109495]
本稿では,グラフサンプリングの必要性を助長する,効率的でスケーラブルなグラフ深層学習アーキテクチャを提案する。
私たちのアーキテクチャでは、異なるローカルグラフ演算子を使用して、そのタスクに最も適しています。
我々は,1億1000万のノードと15億のエッジを持つ,最大の公開グラフデータセットであるogbn-papers100Mについて,最先端の結果を得た。
論文 参考訳(メタデータ) (2020-04-23T14:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。