論文の概要: Opening the Vocabulary of Egocentric Actions
- arxiv url: http://arxiv.org/abs/2308.11488v1
- Date: Tue, 22 Aug 2023 15:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:38:13.142543
- Title: Opening the Vocabulary of Egocentric Actions
- Title(参考訳): エゴセントリックアクションの語彙を開く
- Authors: Dibyadip Chatterjee, Fadime Sener, Shugao Ma, Angela Yao
- Abstract要約: 本稿では,新しいオープン語彙行動認識タスクを提案する。
訓練中に観察される動詞と対象のセットが与えられた場合、目的は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。
EPIC-KITCHENS-100およびアセンブリ101データセット上で,オープンな語彙ベンチマークを作成する。
- 参考スコア(独自算出の注目度): 42.94865322371628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human actions in egocentric videos are often hand-object interactions
composed from a verb (performed by the hand) applied to an object. Despite
their extensive scaling up, egocentric datasets still face two limitations -
sparsity of action compositions and a closed set of interacting objects. This
paper proposes a novel open vocabulary action recognition task. Given a set of
verbs and objects observed during training, the goal is to generalize the verbs
to an open vocabulary of actions with seen and novel objects. To this end, we
decouple the verb and object predictions via an object-agnostic verb encoder
and a prompt-based object encoder. The prompting leverages CLIP representations
to predict an open vocabulary of interacting objects. We create open vocabulary
benchmarks on the EPIC-KITCHENS-100 and Assembly101 datasets; whereas
closed-action methods fail to generalize, our proposed method is effective. In
addition, our object encoder significantly outperforms existing open-vocabulary
visual recognition methods in recognizing novel interacting objects.
- Abstract(参考訳): エゴセントリックなビデオにおける人間の行動は、しばしば、オブジェクトに適用される動詞(手によって実行される)からなる手動オブジェクトの相互作用である。
大規模なスケールアップにもかかわらず、エゴセントリックデータセットは、アクションコンポジションの2つの制限と、相互作用するオブジェクトのクローズドセットに直面している。
本稿では,オープンな語彙認識タスクを提案する。
訓練中に観察される動詞とオブジェクトのセットが与えられた場合、目標は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。
この目的のために、オブジェクトに依存しない動詞エンコーダとプロンプトベースのオブジェクトエンコーダを用いて、動詞とオブジェクトの予測を分離する。
このプロンプトはCLIP表現を利用して、対話するオブジェクトのオープンな語彙を予測する。
EPIC-KITCHENS-100およびアセンブリ101データセット上にオープンな語彙ベンチマークを作成するが、クローズドアクション法は一般化に失敗するが、提案手法は有効である。
さらに,提案するオブジェクトエンコーダは,既存のオープンボキャブラリー視覚認識手法を大きく上回っている。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Modelling Spatio-Temporal Interactions for Compositional Action
Recognition [21.8767024220287]
人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
本研究では,インタラクション中心のアプローチが構成的Somes-Elseデータセットに与える影響を示す。
人-物-物間相互作用モデリングのアプローチは,標準的な行動認識データセットにおいても有効である。
論文 参考訳(メタデータ) (2023-05-04T09:37:45Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Object-agnostic Affordance Categorization via Unsupervised Learning of
Graph Embeddings [6.371828910727037]
オブジェクトのインタラクションやアベイランスに関する知識を取得することで、シーン理解や人間とロボットのコラボレーション作業が容易になる。
オープンな相互作用の集合を持つクラス非依存オブジェクトに対する割当分類の問題に対処する。
アクティビティグラフの構築のために,新しい深度情報を用いた定性的空間表現を提案する。
論文 参考訳(メタデータ) (2023-03-30T15:04:04Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。