論文の概要: CSGaze: Context-aware Social Gaze Prediction
- arxiv url: http://arxiv.org/abs/2511.05955v1
- Date: Sat, 08 Nov 2025 10:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.678309
- Title: CSGaze: Context-aware Social Gaze Prediction
- Title(参考訳): CSGaze: コンテキスト対応のソーシャルギャズ予測
- Authors: Surbhi Madan, Shreya Ghosh, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon,
- Abstract要約: CSGazeは、顔やシーン情報を補完的な入力として活用し、社会的視線パターンの予測を強化する、コンテキスト認識型マルチモーダルアプローチである。
実験の結果,CSGazeはGP-Static, UCO-LAEO, AVA-LAEOの最先端手法と競合することがわかった。
生成したアテンションスコアを通じて、最初の説明可能性を提供し、モデルの意思決定プロセスに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 19.96601346116304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A person's gaze offers valuable insights into their focus of attention, level of social engagement, and confidence. In this work, we investigate how contextual cues combined with visual scene and facial information can be effectively utilized to predict and interpret social gaze patterns during conversational interactions. We introduce CSGaze, a context aware multimodal approach that leverages facial, scene information as complementary inputs to enhance social gaze pattern prediction from multi-person images. The model also incorporates a fine-grained attention mechanism centered on the principal speaker, which helps in better modeling social gaze dynamics. Experimental results show that CSGaze performs competitively with state-of-the-art methods on GP-Static, UCO-LAEO and AVA-LAEO. Our findings highlight the role of contextual cues in improving social gaze prediction. Additionally, we provide initial explainability through generated attention scores, offering insights into the model's decision-making process. We also demonstrate our model's generalizability by testing our model on open set datasets that demonstrating its robustness across diverse scenarios.
- Abstract(参考訳): 人の視線は、注意の焦点、社会的エンゲージメントのレベル、信頼に関する貴重な洞察を提供する。
本研究では,会話中の社会的視線パターンの予測と解釈に,文脈的手がかりと視覚的シーンと顔情報とを効果的に組み合わせる方法について検討する。
CSGazeは、顔やシーン情報を補完的な入力として活用し、マルチパーソン画像からの社会的視線パターンの予測を強化する、コンテキスト認識型マルチモーダルアプローチである。
このモデルは、主話者を中心にしたきめ細かい注意機構も組み込まれており、社会的な視線力学をモデル化するのに役立つ。
実験の結果,CSGazeはGP-Static, UCO-LAEO, AVA-LAEOの最先端手法と競合することがわかった。
本研究は,社会的視線予測の改善における文脈的手がかりの役割を強調した。
さらに、生成された注目スコアを通じて、最初の説明可能性を提供し、モデルの意思決定プロセスに関する洞察を提供する。
また、オープンデータセット上でモデルをテストし、その堅牢性を様々なシナリオで示すことによって、モデルの一般化可能性を示す。
関連論文リスト
- Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文 参考訳(メタデータ) (2025-10-24T11:33:03Z) - Resolving Ambiguity in Gaze-Facilitated Visual Assistant Interaction Paradigm [36.752693539572086]
実世界の応用におけるモデルの有効性を高めるために,視線情報を活用する新しい手法であるGLARIFYを導入する。
本研究では,ユーザの視線パターンのノイズ特性を示すために,視線モダリティを用いた数百のサンプルを解析した。
GLARIFYはベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-09-26T07:02:40Z) - Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。
我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。
Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - GazeFusion: Saliency-Guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成能力を提供する。
本稿では,人間の視覚的注意機構のデータ先行を生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction [11.342075103251572]
現場のすべての人々の視線目標と社会的視線ラベルを共同で予測する新しい枠組みを導入する。
i) 個人に関連する視線情報をキャプチャする個人固有のトークンを処理する、時間的、トランスフォーマーベースのアーキテクチャ。
我々は,VSGazeでトレーニングしたモデルで全てのタスクを共同で処理できることを示し,マルチパーソナライズされた視線追跡と社会的視線予測の最先端結果を得た。
論文 参考訳(メタデータ) (2024-03-15T17:50:45Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Keeping Up Appearances: Computational Modeling of Face Acts in
Persuasion Oriented Discussions [2.9628298226732612]
説得的会話における顔行動のモデル化のための枠組みを提案する。
このフレームワークは、説得会話における非対称的役割間の顔行動利用の差異に関する洞察を明らかにする。
計算モデルを用いて、顔の振る舞いを識別し、重要な会話結果を予測することができる。
論文 参考訳(メタデータ) (2020-09-22T21:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。