Fugu-MT 論文翻訳(概要): Dual-branch Cross-Patch Attention Learning for Group Affect Recognition

論文の概要: Dual-branch Cross-Patch Attention Learning for Group Affect Recognition

arxiv url: http://arxiv.org/abs/2212.07055v1
Date: Wed, 14 Dec 2022 06:51:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 15:03:15.326425
Title: Dual-branch Cross-Patch Attention Learning for Group Affect Recognition
Title（参考訳）: グループ感情認識のためのデュアルブランチクロスパッチ注意学習
Authors: Hongxia Xie, Ming-Xian Lee, Tzu-Jui Chen, Hung-Jen Chen, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng
Abstract要約: グループ・エフェクト(Group affect)とは、グループ内の外部刺激によって誘発される主観的な感情を指す。本研究は,最重要人物(MIP)という心理的概念を取り入れたものである。本稿では,グローバルイメージとMIPを併用したDual-branch Cross-Patch Attention Transformer (DCAT)を提案する。
参考スコア（独自算出の注目度）: 22.169290334463888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Group affect refers to the subjective emotion that is evoked by an external stimulus in a group, which is an important factor that shapes group behavior and outcomes. Recognizing group affect involves identifying important individuals and salient objects among a crowd that can evoke emotions. Most of the existing methods are proposed to detect faces and objects using pre-trained detectors and summarize the results into group emotions by specific rules. However, such affective region selection mechanisms are heuristic and susceptible to imperfect faces and objects from the pre-trained detectors. Moreover, faces and objects on group-level images are often contextually relevant. There is still an open question about how important faces and objects can be interacted with. In this work, we incorporate the psychological concept called Most Important Person (MIP). It represents the most noteworthy face in the crowd and has an affective semantic meaning. We propose the Dual-branch Cross-Patch Attention Transformer (DCAT) which uses global image and MIP together as inputs. Specifically, we first learn the informative facial regions produced by the MIP and the global context separately. Then, the Cross-Patch Attention module is proposed to fuse the features of MIP and global context together to complement each other. With parameters less than 10x, the proposed DCAT outperforms state-of-the-art methods on two datasets of group valence prediction, GAF 3.0 and GroupEmoW datasets. Moreover, our proposed model can be transferred to another group affect task, group cohesion, and shows comparable results.
Abstract（参考訳）: グループ・インフルエント(group affect)とは、グループ内の外部刺激によって誘発される主観的な感情のことであり、グループ行動や結果を形成する重要な要素である。集団的影響を認識するには、感情を誘発できる群集の中で重要な個人と有能な対象を特定する必要がある。既存の手法の多くは、事前訓練された検出器を用いて顔や物体を検出し、その結果を特定のルールでグループ感情にまとめるために提案されている。しかし、このような情緒的領域選択機構はヒューリスティックであり、事前訓練された検出器から不完全な顔や物体に影響を受けやすい。さらに、グループレベルの画像上の顔やオブジェクトは、しばしば文脈的に関連づけられる。顔やオブジェクトがどう相互作用できるかについては、まだ疑問の余地がある。本研究では,最重要人物(mip)と呼ばれる心理概念を取り入れた。群衆の中でもっとも注目すべき顔であり、情緒的な意味を持つ。本稿では,グローバルイメージとMIPを併用したDual-branch Cross-Patch Attention Transformer (DCAT)を提案する。具体的には、まず、mipが生成する情報的顔領域と、グローバルコンテキストを別々に学習する。次に、MIPとグローバルコンテキストの特徴を融合させて相互補完するために、クロスパッチアテンションモジュールを提案する。パラメータが10倍未満の場合、提案したDCATは、グループ価予測(GAF 3.0とGroupEmoWデータセット)の2つのデータセットで最先端の手法より優れている。さらに,提案手法を他のグループインフルエンサータスク,グループ凝集に移し,比較結果を示すことができる。

関連論文リスト

Gems: Group Emotion Profiling Through Multimodal Situational Understanding [8.706215352448227]
我々は、感情理解を、きめ細かいグループとイベントレベルの感情を粗くするために、きめ細かい個々の感情を予測するタスクとして捉えている。本稿では,入力シーン,グループメンバ,コンテキスト情報を処理し,共同予測を生成するマルチモーダルスウィン・トランスフォーマとS3Attentionベースのアーキテクチャを利用するGEMSを紹介する。
論文参考訳（メタデータ） (2025-07-30T05:28:25Z)
HOComp: Interaction-Aware Human-Object Composition [62.93211305213214]
HOCompは、人中心の背景画像に前景オブジェクトを合成するための新しいアプローチである。実験結果から,HOCompは一貫した外見を持つ人間と物体の相互作用を効果的に生成することが示された。
論文参考訳（メタデータ） (2025-07-22T17:59:21Z)
CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文参考訳（メタデータ） (2025-06-19T06:31:08Z)
Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
Proxy Prompt: Endowing SAM and SAM 2 with Auto-Interactive-Prompt for Medical Segmentation [9.375538256947154]
プリアノテートマスクを用いた非ターゲットデータを利用して自動生成するProxy Prompt (PP)を提案する。非ターゲットデータから最も代表的な文脈情報を適応的に選択する3段階のコンテキスト選択戦略を考案する。提案手法は,4つの公開データセット上での最先端性能を達成し,16個の画像マスクでトレーニングした場合でも,完全に訓練されたモデルと同等の結果が得られる。
論文参考訳（メタデータ） (2025-02-05T10:01:28Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-05-08T09:13:10Z)
AdaFPP: Adapt-Focused Bi-Propagating Prototype Learning for Panoramic Activity Recognition [51.24321348668037]
パノラマ活動認識(PAR)は、パノラマシーンにおいて複数の人が行う多粒度行動を特定することを目的としている。以前の方法は、トレーニングと推論において手動で注釈付き検出ボックスに依存しており、より実用的なデプロイメントを妨げる。本研究では,パノラマ活動シーンにおける個人,グループ,グローバルな活動を共同で認識するための,適応型バイプロパゲーティング・プロトタイプ学習(AdaFPP)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-04T01:53:22Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
Ranking-based Group Identification via Factorized Attention on Social Tripartite Graph [68.08590487960475]
グループ識別のための文脈的要因認識(CFAG)という,GNNに基づく新しいフレームワークを提案する。我々は3部グラフ畳み込み層を考案し、ユーザ、グループ、アイテム間の異なる種類の近隣からの情報を集約する。データ疎度問題に対処するため,提案した因子化注意機構に基づく新しい伝搬増強層を考案した。
論文参考訳（メタデータ） (2022-11-02T01:42:20Z)
Mix and Reason: Reasoning over Semantic Topology with Data Mixing for Domain Generalization [48.90173060487124]
ドメイン一般化(DG)は、複数のソースドメインから見えないターゲットドメインへの学習マシンを可能にする。 mire は2つのキーコンポーネント、すなわち Category-Aware Data Mixing (CDM) と Adaptive Semantic Topology Refinement (ASTR) で構成されている。複数のDGベンチマーク実験により,提案法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2022-10-14T06:52:34Z)
Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文参考訳（メタデータ） (2021-11-30T10:35:20Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)
GroupFace: Learning Latent Groups and Constructing Group-based Representations for Face Recognition [20.407167858663453]
組込み機能の品質を向上させるために,グループフェイスと呼ばれる新しい顔認識特化アーキテクチャを提案する。提案手法は,人間のアノテーションを付加せずに各グループに属するサンプル数のバランスをとる自己分散ラベルを提供する。提案手法のすべてのコンポーネントは、計算複雑性を極端に増加させることなく、エンドツーエンドで訓練することができる。
論文参考訳（メタデータ） (2020-05-21T07:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。