論文の概要: Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation
- arxiv url: http://arxiv.org/abs/2107.14425v1
- Date: Fri, 30 Jul 2021 04:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 18:45:56.061417
- Title: Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation
- Title(参考訳): 簡潔相互作用グラフと識別的シーン表現による社会的関係推論の強化
- Authors: Xiaotian Yu, Hanling Yi, Yi Yu, Ling Xing, Shiliang Zhang, Xiaoyu Wang
- Abstract要約: 我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
- 参考スコア(独自算出の注目度): 56.25878966006678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a recent surge of research interest in attacking the problem
of social relation inference based on images. Existing works classify social
relations mainly by creating complicated graphs of human interactions, or
learning the foreground and/or background information of persons and objects,
but ignore holistic scene context. The holistic scene refers to the
functionality of a place in images, such as dinning room, playground and
office. In this paper, by mimicking human understanding on images, we propose
an approach of \textbf{PR}actical \textbf{I}nference in \textbf{S}ocial
r\textbf{E}lation (PRISE), which concisely learns interactive features of
persons and discriminative features of holistic scenes. Technically, we develop
a simple and fast relational graph convolutional network to capture interactive
features of all persons in one image. To learn the holistic scene feature, we
elaborately design a contrastive learning task based on image scene
classification. To further boost the performance in social relation inference,
we collect and distribute a new large-scale dataset, which consists of about
240 thousand unlabeled images. The extensive experimental results show that our
novel learning framework significantly beats the state-of-the-art methods,
e.g., PRISE achieves 6.8$\%$ improvement for domain classification in PIPA
dataset.
- Abstract(参考訳): 近年,画像に基づく社会的関係推論問題に対する研究の関心が高まっている。
既存の作品は、主に人間の相互作用の複雑なグラフを作成したり、人や物の前景や背景情報を学習することで社会的関係を分類する。
総合的な場面は、ダイニングルーム、遊び場、オフィスといった画像の中の場所の機能を指す。
本稿では,画像上での人間の理解を模倣することにより,人物の対話的特徴と全体像の識別的特徴を簡潔に学習する, \textbf{PR}actical \textbf{I}nference in \textbf{S}ocial r\textbf{E}lation (PRISE)を提案する。
技術的には、簡単な高速なリレーショナルグラフ畳み込みネットワークを開発し、1つの画像中のすべての人の対話的特徴を捉える。
全体像の特徴を学習するために,画像シーン分類に基づくコントラスト学習タスクを精巧に設計する。
社会的関係推論の性能をさらに向上させるために,約240万枚の未ラベル画像からなる大規模データセットを収集,配布する。
PRISEはPIPAデータセットにおけるドメイン分類の6.8$\%の改善を達成し,新しい学習フレームワークが最先端の手法を著しく上回っていることを示す。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。