Fugu-MT 論文翻訳(概要): Automated Detection of Mutual Gaze and Joint Attention in Dual-Camera Settings via Dual-Stream Transformers

論文の概要: Automated Detection of Mutual Gaze and Joint Attention in Dual-Camera Settings via Dual-Stream Transformers

arxiv url: http://arxiv.org/abs/2604.27105v1
Date: Wed, 29 Apr 2026 18:49:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:53.761739
Title: Automated Detection of Mutual Gaze and Joint Attention in Dual-Camera Settings via Dual-Stream Transformers
Title（参考訳）: デュアルストリーム変換器によるデュアルカメラ設定における相互迷路検出とジョイントアテンションの自動検出
Authors: Jakub Kosmydel, Paweł Gajewski, Arkadiusz Białek,
Abstract要約: 相互視線(MG)と共同注意(JA)は発達心理学において重要であるが、伝統的に労働集約的な手動コーディングに依存している。同期デュアルカメラ記録からMGおよびJAを検出するための高効率なデュアルストリームトランスフォーマアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Analyzing mutual gaze (MG) and joint attention (JA) is critical in developmental psychology but traditionally relies on labor-intensive manual coding. Automating this process in multi-camera laboratory settings is computationally challenging due to complex cross-camera relational dynamics. In this paper, we propose a highly efficient dual-stream Transformer architecture for detecting MG and JA from synchronized dual-camera recordings. Our approach leverages frozen gaze-aware backbones (GazeLLE) to extract rich visual priors, combined with a custom token fusion mechanism to map the spatial and semantic relationships between interacting dyads. Evaluated on an ecologically valid dataset of caregiver-infant interactions, our model exhibits good performance, significantly outperforming both a convolutional baseline and a state-of-the-art multimodal Large Language Model (LLM). By open-sourcing our model and pre-trained weights, we provide behavioral scientists with a scalable tool that can be fine-tuned to diverse laboratory environments, effectively bridging the gap between computational modeling and applied interaction research.
Abstract（参考訳）: 相互視線(MG)と共同注意(JA)の分析は、発達心理学において重要であるが、伝統的に労働集約的な手動コーディングに依存している。複雑なクロスカメラリレーショナルダイナミクスのため、マルチカメララボ環境におけるこのプロセスの自動化は計算的に困難である。本稿では,同期デュアルカメラ記録からMGおよびJAを検出するための高効率なデュアルストリームトランスフォーマアーキテクチャを提案する。提案手法は,凍結した視線を意識したバックボーン(GazeLLE)を用いて,対話ダイアド間の空間的および意味的関係をマッピングするカスタムトークン融合機構と組み合わせて,リッチな視覚的先行情報を抽出する。介護者と幼児の相互作用を生態学的に有効なデータセットで評価し, 畳み込みベースラインと最先端のマルチモーダル大規模言語モデル(LLM)の両方を著しく上回り, 良好な性能を示した。モデルと事前学習した重量をオープンソース化することにより、多様な実験環境に微調整できるスケーラブルなツールを、行動科学者に提供し、計算モデリングと応用相互作用研究のギャップを効果的に埋めることができます。

関連論文リスト

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation [10.568269273364448]
大規模言語モデル(LLM)はコード生成に革命をもたらし、静的ツールから動的対話インターフェースへと進化した。 LLMはスタンドアロンのコードスニペットを生成するのに非常に優れているが、拡張された相互作用の間はコンテキスト整合性を維持するのに苦労している。既存のベンチマークでは、インタラクション・スメル(Interaction Smells)と呼ばれるインタラクション・プロセス自体に潜む品質の問題を見越して、最終的な出力の関数的正しさを強調している。
論文参考訳（メタデータ） (2026-03-10T14:12:18Z)
DualGazeNet: A Biologically Inspired Dual-Gaze Query Network for Salient Object Detection [52.32976488996896]
我々はDualGazeNetを紹介した。DualGazeNetは、純粋なトランスフォーマーフレームワークで、有能なオブジェクト検出を行う。 5つのRGBベンチマークの実験によると、DualGazeNetは25の最先端CNNとTransformerベースのメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2025-11-24T08:08:22Z)
Explicit Multimodal Graph Modeling for Human-Object Interaction Detection [11.15526365654911]
グラフニューラルネットワーク(GNN)は、人間とオブジェクトのペア間の関係を明示的にモデル化するため、このタスクに本質的に適している。我々は,GNNに基づく関係構造を利用してHOI検出を向上させる textbfMultimodal textbfGraph textbfNetwork textbfModeling (MGNM) を提案する。
論文参考訳（メタデータ） (2025-09-16T01:17:49Z)
Hybrid-supervised Hypergraph-enhanced Transformer for Micro-gesture Based Emotion Recognition [30.016692048849226]
マイクロジェスチャーは、人間の感情状態を伝達できる無意識の身体ジェスチャーである。ハイパーグラフ強調変換器を用いて行動パターンを再構成することにより,マイクロジェスチャーに基づく感情状態の認識を提案する。提案手法は,iMiGUEとSMGの2つの公開データセットで評価される。
論文参考訳（メタデータ） (2025-07-20T08:27:56Z)
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文参考訳（メタデータ） (2023-09-13T20:21:41Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。