論文の概要: Disentangled Action Recognition with Knowledge Bases
- arxiv url: http://arxiv.org/abs/2207.01708v1
- Date: Mon, 4 Jul 2022 20:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:20:44.720318
- Title: Disentangled Action Recognition with Knowledge Bases
- Title(参考訳): 知識ベースを用いた絡み合った行動認識
- Authors: Zhekun Luo, Shalini Ghosh, Devin Guillory, Keizo Kato, Trevor Darrell,
Huijuan Xu
- Abstract要約: 本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
- 参考スコア(独自算出の注目度): 77.77482846456478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action in video usually involves the interaction of human with objects.
Action labels are typically composed of various combinations of verbs and
nouns, but we may not have training data for all possible combinations. In this
paper, we aim to improve the generalization ability of the compositional action
recognition model to novel verbs or novel nouns that are unseen during training
time, by leveraging the power of knowledge graphs. Previous work utilizes
verb-noun compositional action nodes in the knowledge graph, making it
inefficient to scale since the number of compositional action nodes grows
quadratically with respect to the number of verbs and nouns. To address this
issue, we propose our approach: Disentangled Action Recognition with
Knowledge-bases (DARK), which leverages the inherent compositionality of
actions. DARK trains a factorized model by first extracting disentangled
feature representations for verbs and nouns, and then predicting classification
weights using relations in external knowledge graphs. The type constraint
between verb and noun is extracted from external knowledge bases and finally
applied when composing actions. DARK has better scalability in the number of
objects and verbs, and achieves state-of-the-art performance on the Charades
dataset. We further propose a new benchmark split based on the Epic-kitchen
dataset which is an order of magnitude bigger in the numbers of classes and
samples, and benchmark various models on this benchmark.
- Abstract(参考訳): ビデオでのアクションは通常、人間と物体の相互作用を伴う。
アクションラベルは通常、動詞と名詞の様々な組み合わせで構成されていますが、可能なすべての組み合わせのトレーニングデータを持っていません。
本稿では,知識グラフの力を活用して,学習期間中に見つからない新しい動詞や新しい名詞に対する合成行動認識モデルの一般化能力を向上させることを目的とする。
従来の研究では、知識グラフの動詞合成行動ノードを利用しており、動詞と名詞の数に関して2次的に構成行動ノードの数が増加するため、スケールすることができない。
この問題に対処するために,我々は,行動の固有構成性を活用する知識ベース(dark)を用いた不等角化行動認識を提案する。
ダークは、まず動詞と名詞に対する不連続な特徴表現を抽出し、それから外部知識グラフにおける関係を用いて分類重みを予測して因子化モデルを訓練する。
動詞と名詞の間の型制約は外部知識ベースから抽出され、最後に行動を構成する際に適用される。
DARKはオブジェクトと動詞の数でスケーラビリティが向上し、Charadesデータセット上で最先端のパフォーマンスを達成する。
さらに,クラス数やサンプル数で桁違いに大きいEpic-kitchenデータセットに基づく新しいベンチマークスプリットを提案し,このベンチマークで様々なモデルをベンチマークする。
関連論文リスト
- Controlling Topic-Focus Articulation in Meaning-to-Text Generation using
Graph Neural Networks [8.334427140256606]
グラフニューラルモデルを用いたトピック・フォーカス調音法(TFA)の3つの異なる手法を試行する。
グラフニューラルモデルにおけるノードアグリゲーションに関する新しい符号化手法を提案する。これは、隣接ノード情報を集約することで従来の符号化ではなく、深さ優先探索を用いてノード表現を学習する。
論文 参考訳(メタデータ) (2023-10-03T13:51:01Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - NodePiece: Compositional and Parameter-Efficient Representations of
Large Knowledge Graphs [15.289356276538662]
固定サイズのエンティティ語彙を学習するためのアンカーベースのアプローチであるNodePieceを提案する。
NodePieceでは、サブワード/サブエンティティユニットの語彙は、既知の関係型を持つグラフのアンカーノードから構築される。
実験の結果、NodePieceはノード分類、リンク予測、関係予測タスクで競合的に動作していることがわかった。
論文 参考訳(メタデータ) (2021-06-23T03:51:03Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。