論文の概要: PaStaNet: Toward Human Activity Knowledge Engine
- arxiv url: http://arxiv.org/abs/2004.00945v2
- Date: Tue, 21 Apr 2020 11:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:28:33.073351
- Title: PaStaNet: Toward Human Activity Knowledge Engine
- Title(参考訳): PaStaNet:人間活動知識エンジンを目指して
- Authors: Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang,
Hao-Shu Fang, Ze Ma, Mingyang Chen, Cewu Lu
- Abstract要約: そこで我々は,まず人間の状態を推定し,その上で,部分レベルのセマンティクスに基づくアクティビティを推論する,新しい経路を提案する。
7M以上のPaStaアノテーションを含む大規模知識ベースPaStaNetを構築した。
本手法は,教師あり学習におけるHICOのフルおよびワンショットセットの6.4および13.9mAP,V-COCOにおける3.2および4.2mAP,転送学習における画像ベースAVAなどの大幅な改善を実現する。
- 参考スコア(独自算出の注目度): 51.31740670392964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image-based activity understanding methods mainly adopt direct
mapping, i.e. from image to activity concepts, which may encounter performance
bottleneck since the huge gap. In light of this, we propose a new path: infer
human part states first and then reason out the activities based on part-level
semantics. Human Body Part States (PaSta) are fine-grained action semantic
tokens, e.g. <hand, hold, something>, which can compose the activities and help
us step toward human activity knowledge engine. To fully utilize the power of
PaSta, we build a large-scale knowledge base PaStaNet, which contains 7M+ PaSta
annotations. And two corresponding models are proposed: first, we design a
model named Activity2Vec to extract PaSta features, which aim to be general
representations for various activities. Second, we use a PaSta-based Reasoning
method to infer activities. Promoted by PaStaNet, our method achieves
significant improvements, e.g. 6.4 and 13.9 mAP on full and one-shot sets of
HICO in supervised learning, and 3.2 and 4.2 mAP on V-COCO and images-based AVA
in transfer learning. Code and data are available at http://hake-mvig.cn/.
- Abstract(参考訳): 既存の画像に基づく活動理解手法は主に直接マッピング(画像からアクティビティの概念)を採用しており、これは大きなギャップからパフォーマンスのボトルネックに直面する可能性がある。
そこで本研究では,まず人的部分の状態の推測を行い,その動作を部分レベルの意味論に基づいて推論する,新たな経路を提案する。
人体部品状態(PaSta)は、例えば、手、保持、何かのようなきめ細かなアクションセマンティックトークンであり、活動を構成することができ、人間の活動知識エンジンへ進むのに役立ちます。
PaStaのパワーをフル活用するために、7M以上のPaStaアノテーションを含む大規模知識ベースPaStaNetを構築した。
まず,様々な活動の汎用表現を目指すパスタ特徴を抽出するために, activity2vec というモデルを設計する。
第2に,アクティビティを推論するために,パスタに基づく推論手法を用いる。
PaStaNetによって推進された本手法は,教師あり学習におけるHICOの6.4と13.9mAP,V-COCOにおける3.2と4.2mAP,転送学習における画像ベースAVAなど,大幅な改善を実現している。
コードとデータはhttp://hake-mvig.cn/で入手できる。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You
Need [18.42388423333944]
本稿では、事前訓練されたモデルの知識と下流タスクとのセマンティックアライメントを用いたより効果的なマッピングであるSeMapを提案する。
その結果,提案したSeMapは,視覚的即興学習とゼロショット転送の両方において,大きな進歩をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-03-09T13:59:49Z) - HAKE: A Knowledge Engine Foundation for Human Activity Understanding [65.24064718649046]
人間の活動理解は人工知能に広く興味を持ち、医療や行動分析といった多様な応用にまたがっている。
本稿では,この課題を2段階にまとめた新しいパラダイムを提案する。まず,原子活動プリミティブを対象とする中間空間に画素をマッピングし,解釈可能な論理規則で検出されたプリミティブをプログラムして意味論を推論する。
我々のフレームワークであるHAKE(Human Activity Knowledge Engine)は、挑戦的なベンチマークよりも優れた一般化能力と性能を示す。
論文 参考訳(メタデータ) (2022-02-14T16:38:31Z) - MEAL: Manifold Embedding-based Active Learning [0.0]
アクティブな学習は、ラベル付けのための最も有望なサンプルを提案することで、少量のデータから学ぶのに役立つ。
本稿では,各獲得ステップにおいて,有望な画像領域を提案するアクティブラーニングのためのプールベースの新しい手法を提案する。
また,Cityscapesでは,Cityscapesでは,CamVidの性能向上が認められなかった。
論文 参考訳(メタデータ) (2021-06-22T15:22:56Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。