論文の概要: Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions
- arxiv url: http://arxiv.org/abs/2412.16698v1
- Date: Sat, 21 Dec 2024 16:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:40.342405
- Title: Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions
- Title(参考訳): 私との交流: 交流・態度・社会的行動への参加意識の同時予測
- Authors: Tongfei Bian, Yiming Ma, Mathieu Chollet, Victor Sanchez, Tanaya Guha,
- Abstract要約: SocialEgoNetはグラフベースのフレームワークで、階層的な学習アプローチを通じてタスク依存を利用する。
SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出されたボディスケルトン(顔、手、体からキーポイント)を使用する。
評価のために、新しいクラスラベルとバウンディングボックスアノテーションとの既存のエゴセントリックなヒューマンエージェントインタラクションを強化する。
- 参考スコア(独自算出の注目度): 25.464036307823974
- License:
- Abstract: For efficient human-agent interaction, an agent should proactively recognize their target user and prepare for upcoming interactions. We formulate this challenging problem as the novel task of jointly forecasting a person's intent to interact with the agent, their attitude towards the agent and the action they will perform, from the agent's (egocentric) perspective. So we propose \emph{SocialEgoNet} - a graph-based spatiotemporal framework that exploits task dependencies through a hierarchical multitask learning approach. SocialEgoNet uses whole-body skeletons (keypoints from face, hands and body) extracted from only 1 second of video input for high inference speed. For evaluation, we augment an existing egocentric human-agent interaction dataset with new class labels and bounding box annotations. Extensive experiments on this augmented dataset, named JPL-Social, demonstrate \emph{real-time} inference and superior performance (average accuracy across all tasks: 83.15\%) of our model outperforming several competitive baselines. The additional annotations and code will be available upon acceptance.
- Abstract(参考訳): 効率的な人間とエージェントのインタラクションのために、エージェントはターゲットユーザを積極的に認識し、今後のインタラクションに備えるべきである。
我々は、エージェントと対話する意図、エージェントに対する態度、そしてエージェントの(自我中心的な)視点から実行するアクションを共同で予測する新しいタスクとして、この課題を定式化する。
そこで我々は,階層型マルチタスク学習アプローチを通じてタスク依存性を活用するグラフベースの時空間フレームワークである \emph{SocialEgoNet} を提案する。
SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出された全身骨格(顔、手、体からキーポイント)を使用する。
評価のために、既存のエゴセントリックなヒューマンエージェントインタラクションデータセットを新しいクラスラベルとバウンディングボックスアノテーションで拡張する。
JPL-Socialという名前のこの拡張データセットに関する大規模な実験は、いくつかの競争的ベースラインよりも優れた性能(全タスクの平均精度:83.15\%)を実証している。
追加のアノテーションとコードは、受け入れ次第利用できる。
関連論文リスト
- PMM-Net: Single-stage Multi-agent Trajectory Prediction with Patching-based Embedding and Explicit Modal Modulation [6.793915571620126]
本稿では,マルチエージェント軌道予測フレームワークの定式化について検討する。
本稿では,パッチベースの時間的特徴抽出モジュールとグラフベースのソーシャル特徴抽出モジュールを提案する。
本稿では,時間的特徴と社会的特徴を統合し,効率的な単一ステージ推論パイプラインを構築するための,明示的なモダリティ変調に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T13:16:27Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation [14.734158936250918]
短期的オブジェクトインタラクション予測は、ユーザの目標を理解するためにウェアラブルアシスタントやヒューマンロボットのインタラクションに不可欠である。
我々は2つのコントリビューションでSTA予測の性能を改善した。
まず、フレーム誘導時間プーリング、デュアルイメージ・ビデオアテンション、マルチスケール機能融合を統合した新しいアテンションベースアーキテクチャであるSTAformerを提案する。
第2に、手と物体の軌跡の観測から相互作用ホットスポットを予測し、ホットスポット周辺に局在したSTA予測に対する信頼性を高める。
論文 参考訳(メタデータ) (2024-06-03T10:57:18Z) - Best Practices for 2-Body Pose Forecasting [58.661899246497896]
我々は、人間のポーズ予測の進捗状況を概観し、最善を尽くす一対一の実践を詳細に評価する。
他の1人のプラクティスは2体に移行しないため、提案されているベストプラクティスは階層的なボディモデリングや注目に基づくインタラクションエンコーディングは含まない。
提案した2体ポーズによるベストプラクティス予測では,最新のExPIデータセットのパフォーマンスが21.9%向上した。
論文 参考訳(メタデータ) (2023-04-12T10:46:23Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。