論文の概要: C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition
- arxiv url: http://arxiv.org/abs/2407.06113v2
- Date: Fri, 19 Jul 2024 04:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 21:58:59.147030
- Title: C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition
- Title(参考訳): C2C: ゼロショット合成行動認識のためのコンポーネント対合成学習
- Authors: Rongchang Li, Zhenhua Feng, Tianyang Xu, Linze Li, Xiao-Jun Wu, Muhammad Awais, Sara Atito, Josef Kittler,
- Abstract要約: ゼロショット合成行動認識(ZS-CAR)タスクを提案する。
タスクを評価するために、新しいベンチマークであるSomes-composition(Sth-com)を構築します。
また,新しいZS-CARタスクを解くために,新しいコンポーネント・ツー・コンポジション(C2C)学習手法を提案する。
- 参考スコア(独自算出の注目度): 37.882924504860334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional actions consist of dynamic (verbs) and static (objects) concepts. Humans can easily recognize unseen compositions using the learned concepts. For machines, solving such a problem requires a model to recognize unseen actions composed of previously observed verbs and objects, thus requiring so-called compositional generalization ability. To facilitate this research, we propose a novel Zero-Shot Compositional Action Recognition (ZS-CAR) task. For evaluating the task, we construct a new benchmark, Something-composition (Sth-com), based on the widely used Something-Something V2 dataset. We also propose a novel Component-to-Composition (C2C) learning method to solve the new ZS-CAR task. C2C includes an independent component learning module and a composition inference module. Last, we devise an enhanced training strategy to address the challenges of component variations between seen and unseen compositions and to handle the subtle balance between learning seen and unseen actions. The experimental results demonstrate that the proposed framework significantly surpasses the existing compositional generalization methods and sets a new state-of-the-art. The new Sth-com benchmark and code are available at https://github.com/RongchangLi/ZSCAR_C2C.
- Abstract(参考訳): 構成的アクションは動的(動詞)と静的(対象)の概念から構成される。
人間は学習した概念を使って、目に見えない構成を容易に認識できる。
機械の場合、そのような問題を解くには、事前に観察された動詞や対象からなる見知らぬ行動を認識するモデルが必要であるため、いわゆる合成一般化能力が必要である。
本研究では,ゼロショット合成行動認識(ZS-CAR)タスクを提案する。
タスクを評価するために、広く使われているSomething V2データセットに基づいて、新しいベンチマークであるSomes-composition(Sth-com)を構築した。
また,新しいZS-CARタスクを解くために,新しいコンポーネント・ツー・コンポジション(C2C)学習手法を提案する。
C2Cは独立したコンポーネント学習モジュールと合成推論モジュールを含む。
最後に、目に見える構成と目に見えない構成のコンポーネント変動の課題に対処し、目に見える構成と目に見えない動作の微妙なバランスに対処するための強化されたトレーニング戦略を考案する。
実験の結果,提案手法は既存の構成一般化手法をはるかに上回り,新たな最先端の手法が確立された。
新しいSth-comベンチマークとコードはhttps://github.com/RongchangLi/ZSCAR_C2Cで公開されている。
関連論文リスト
- CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - Reference-Limited Compositional Zero-Shot Learning [19.10692212692771]
合成ゼロショット学習(CZSL)は、既知の視覚的プリミティブの未知の合成を認識することを指す。
本稿では,メタコンポジショングラフ学習システム(MetaCGL)を提案する。
論文 参考訳(メタデータ) (2022-08-22T03:58:02Z) - Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。
提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-06-29T09:02:35Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z) - COMPAS: Representation Learning with Compositional Part Sharing for
Few-Shot Classification [10.718573053194742]
画像分類は2つの連続的な学習プロセスから構成される。
人間におけるオブジェクトの合成表現にインスパイアされた私たちは、オブジェクトを一組のパーツとして明示的に表現するニューラルネットワークアーキテクチャをトレーニングします。
我々は,miniImageNet, tieredImageNet, CIFAR-FS, FC100 を用いた数ショット分類のための合成学習フレームワークの価値を実証した。
論文 参考訳(メタデータ) (2021-01-28T09:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。