論文の概要: Human-centric Relation Segmentation: Dataset and Solution
- arxiv url: http://arxiv.org/abs/2105.11168v2
- Date: Tue, 25 May 2021 12:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:36:41.288705
- Title: Human-centric Relation Segmentation: Dataset and Solution
- Title(参考訳): 人間中心関係セグメンテーション:データセットと解法
- Authors: Si Liu, Zitian Wang, Yulu Gao, Lejian Ren, Yue Liao, Guanghui Ren, Bo
Li, Shuicheng Yan
- Abstract要約: 本稿では,Human-centric relation segmentation (HRS) というタスクをHOI-detのきめ細かいケースとして紹介する。
HRSは、人間と周囲の実体の関係を予測し、関連性のある人間の部分を特定することを目的としている。
以上の場合,HRSタスクは,本書のリレーション・トリップレット・ガール(左手)・ホールド・ブック・マスクと正確なセグメンテーション・マスクの形式で生成され,ロボットが容易につかむことができる。
- 参考スコア(独自算出の注目度): 70.35410845906245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision and language understanding techniques have achieved remarkable
progress, but currently it is still difficult to well handle problems involving
very fine-grained details. For example, when the robot is told to "bring me the
book in the girl's left hand", most existing methods would fail if the girl
holds one book respectively in her left and right hand. In this work, we
introduce a new task named human-centric relation segmentation (HRS), as a
fine-grained case of HOI-det. HRS aims to predict the relations between the
human and surrounding entities and identify the relation-correlated human
parts, which are represented as pixel-level masks. For the above exemplar case,
our HRS task produces results in the form of relation triplets <girl [left
hand], hold, book> and exacts segmentation masks of the book, with which the
robot can easily accomplish the grabbing task. Correspondingly, we collect a
new Person In Context (PIC) dataset for this new task, which contains 17,122
high-resolution images and densely annotated entity segmentation and relations,
including 141 object categories, 23 relation categories and 25 semantic human
parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework
as a solution to the HRS task. I Outputs of the three branches are fused to
produce the final HRS results. Extensive experiments on PIC and V-COCO datasets
show that the proposed SMS method outperforms baselines with the 36 FPS
inference speed.
- Abstract(参考訳): ビジョンと言語理解の技術は目覚ましい進歩を遂げていますが、現在、非常に細かい詳細に関わる問題をうまく処理することは困難です。
例えば、ロボットが「少女の左手に本を持ってこい」と言われたとき、少女が左右に1冊の本を持っていると、既存の方法のほとんどは失敗する。
本研究では,Human-centric relation segmentation (HRS) というタスクを,HOI-detのきめ細かいケースとして紹介する。
HRSは、人間と周囲の実体の関係を予測し、ピクセルレベルのマスクとして表される関係関連した人間の部分を特定することを目的としている。
上記の例の場合、当社のhrsタスクは、この本の3重項<girl [left hand], hold, book>と精密なセグメンテーションマスクという形式で結果を生成します。
このタスクには、17,122の高解像度画像と、141のオブジェクトカテゴリ、23の関連カテゴリ、25のセマンティックヒューマン部分を含む、密接な注釈付きエンティティセグメンテーションと関係を含む、新しいPerson In Context(PIC)データセットが収集されている。
また,HRSタスクの解決策として,同時マッチング・セグメンテーション(SMS)フレームワークを提案する。
I I Outputs of the three branches are fused to produce the final HRS results。
PICとV-COCOデータセットの大規模な実験により、提案手法はベースラインを36FPSの推論速度で上回ることを示した。
関連論文リスト
- HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - A Survey of Implicit Discourse Relation Recognition [9.57170901247685]
暗黙的談話関係認識(IDRR)は、暗黙的関係を検出し、接続性のない2つのテキストセグメント間でその感覚を分類することである。
この記事では、IDRRタスクに関する包括的で最新の調査を提供する。
論文 参考訳(メタデータ) (2022-03-06T15:12:53Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。