論文の概要: Situational Scene Graph for Structured Human-centric Situation Understanding
- arxiv url: http://arxiv.org/abs/2410.22829v1
- Date: Wed, 30 Oct 2024 09:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:37.729545
- Title: Situational Scene Graph for Structured Human-centric Situation Understanding
- Title(参考訳): 構造化人間中心の環境理解のための情景グラフ
- Authors: Chinthani Sugandhika, Chen Li, Deepu Rajan, Basura Fernando,
- Abstract要約: 本研究では,人的対象関係とそれに対応する意味特性の両方をエンコードするために,SSGというグラフベースの表現を提案する。
セマンティックディテールは、当初単一のアクションを表現するように設計された状況フレームにインスパイアされた、事前に定義された役割と値として表現される。
間もなくコードとデータセットをリリースします。
- 参考スコア(独自算出の注目度): 15.91717913059569
- License:
- Abstract: Graph based representation has been widely used in modelling spatio-temporal relationships in video understanding. Although effective, existing graph-based approaches focus on capturing the human-object relationships while ignoring fine-grained semantic properties of the action components. These semantic properties are crucial for understanding the current situation, such as where does the action takes place, what tools are used and functional properties of the objects. In this work, we propose a graph-based representation called Situational Scene Graph (SSG) to encode both human-object relationships and the corresponding semantic properties. The semantic details are represented as predefined roles and values inspired by situation frame, which is originally designed to represent a single action. Based on our proposed representation, we introduce the task of situational scene graph generation and propose a multi-stage pipeline Interactive and Complementary Network (InComNet) to address the task. Given that the existing datasets are not applicable to the task, we further introduce a SSG dataset whose annotations consist of semantic role-value frames for human, objects and verb predicates of human-object relations. Finally, we demonstrate the effectiveness of our proposed SSG representation by testing on different downstream tasks. Experimental results show that the unified representation can not only benefit predicate classification and semantic role-value classification, but also benefit reasoning tasks on human-centric situation understanding. We will release the code and the dataset soon.
- Abstract(参考訳): グラフに基づく表現はビデオ理解における時空間関係のモデル化に広く用いられている。
既存のグラフベースのアプローチでは、アクションコンポーネントのきめ細かいセマンティック特性を無視しながら、人間とオブジェクトの関係を捉えることに重点を置いている。
これらのセマンティックな性質は、アクションがどこで起こっているか、どのツールが使われているか、オブジェクトの機能的特性など、現在の状況を理解するのに不可欠である。
本研究では,人間とオブジェクトの関係とそれに対応する意味性の両方をエンコードする,コンテクスト・シーングラフ(SSG)というグラフベースの表現を提案する。
セマンティックディテールは、当初単一のアクションを表現するように設計された状況フレームにインスパイアされた、事前に定義された役割と値として表現される。
提案した表現に基づいて,状況図生成のタスクを導入し,そのタスクに対処する多段階パイプライン対話・補完ネットワーク(InComNet)を提案する。
また,既存のデータセットがタスクに適用できないことを考慮し,人・物・動詞関係を表す意味的役割値フレームからなるSSGデータセットも導入する。
最後に,提案したSSG表現の有効性を示す。
実験結果から,統一表現は述語分類や意味的役割価値分類だけでなく,人間中心の状況理解における推論作業にも有効であることが示唆された。
間もなくコードとデータセットをリリースします。
関連論文リスト
- Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Adaptive Attentional Network for Few-Shot Knowledge Graph Completion [16.722373937828117]
Few-shot Knowledge Graph (KG) の完成は、現在の研究の焦点であり、各タスクは、数少ない参照エンティティペアを考えると、関係の見えない事実をクエリすることを目的としている。
最近の試みでは、エンティティと参照の静的表現を学習し、それらの動的特性を無視してこの問題を解決している。
本研究は,適応実体と参照表現を学習することにより,数ショットのKG補完のための適応的注意ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T16:27:48Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Unbiased Scene Graph Generation via Rich and Fair Semantic Extraction [42.37557498737781]
我々はRich and Fairセマンティック抽出ネットワーク(RiFa)という新しいシンプルなアーキテクチャを提案する。
RiFaは、ある文脈領域における実体の視覚的特徴と意味的特徴の両方に基づいて主観的対象関係を予測する。
人気のあるVisual Genomeデータセットの実験は、RiFaが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2020-02-01T09:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。