論文の概要: Learning Triadic Belief Dynamics in Nonverbal Communication from Videos
- arxiv url: http://arxiv.org/abs/2104.02841v1
- Date: Wed, 7 Apr 2021 00:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:03:37.521902
- Title: Learning Triadic Belief Dynamics in Nonverbal Communication from Videos
- Title(参考訳): ビデオからの非言語コミュニケーションにおける三進信念のダイナミクスの学習
- Authors: Lifeng Fan, Shuwen Qiu, Zilong Zheng, Tao Gao, Song-Chun Zhu, Yixin
Zhu
- Abstract要約: 非言語コミュニケーションはエージェント間で豊富な社会情報を伝達することができる。
本論文では,エージェントの精神状態を表現,モデル化,学習,推論するために,異なる非言語的コミュニケーションキューを組み込んだ。
- 参考スコア(独自算出の注目度): 81.42305032083716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans possess a unique social cognition capability; nonverbal communication
can convey rich social information among agents. In contrast, such crucial
social characteristics are mostly missing in the existing scene understanding
literature. In this paper, we incorporate different nonverbal communication
cues (e.g., gaze, human poses, and gestures) to represent, model, learn, and
infer agents' mental states from pure visual inputs. Crucially, such a mental
representation takes the agent's belief into account so that it represents what
the true world state is and infers the beliefs in each agent's mental state,
which may differ from the true world states. By aggregating different beliefs
and true world states, our model essentially forms "five minds" during the
interactions between two agents. This "five minds" model differs from prior
works that infer beliefs in an infinite recursion; instead, agents' beliefs are
converged into a "common mind". Based on this representation, we further devise
a hierarchical energy-based model that jointly tracks and predicts all five
minds. From this new perspective, a social event is interpreted by a series of
nonverbal communication and belief dynamics, which transcends the classic
keyframe video summary. In the experiments, we demonstrate that using such a
social account provides a better video summary on videos with rich social
interactions compared with state-of-the-art keyframe video summary methods.
- Abstract(参考訳): 人間にはユニークな社会的認知能力があり、非言語コミュニケーションはエージェント間で豊富な社会的情報を伝達することができる。
対照的に、こうした重要な社会的特徴は、既存の状況理解文学にはほとんど欠落している。
本稿では,視覚入力からエージェントの心理状態を表現し,モデル化し,学習し,推測するために,非言語的コミュニケーションの手がかり(視線,人間のポーズ,ジェスチャーなど)を取り入れる。
重要なのは、そのような心的表現がエージェントの信念を考慮に入れ、それが真の世界状態が何であるかを表わし、それぞれのエージェントの精神状態における信念を推測する。
異なる信念と真の世界状態の集約によって、我々のモデルは本質的に2つのエージェント間の相互作用の間に「5つの心」を形成する。
この「5つの心」モデルは、無限の再帰の信念を推測する以前の作品と異なり、エージェントの信念は「共通の心」に収束する。
この表現に基づいて,5つの心を共同で追跡し,予測する階層的エネルギーベースモデルをさらに考案する。
この新たな視点から、社会イベントは、古典的なキーフレームのビデオ要約を超越した一連の非言語コミュニケーションと信念ダイナミクスによって解釈される。
実験では,このようなソーシャルアカウントを用いて,最先端のキーフレームビデオサマリー手法と比較して,リッチなソーシャルインタラクションを有するビデオに対するより良いビデオサマリを提供することを示す。
関連論文リスト
- Modeling Multimodal Social Interactions: New Challenges and Baselines
with Densely Aligned Representations [22.36755372349628]
複数人間のきめ細かいダイナミクスをモデル化するための3つの新しい課題を紹介します。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。
私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-07T18:58:59Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for
Situated Neural Dialogue Generation [92.28940192075433]
そこで我々はMindDialを提案する。MindDialは、位置自由な応答を生成できる新しい対話型フレームワークで、共通基盤を交渉できる。
我々は、3段階の信念(話者の信念、話者のリスナーの信念に対する予測、および共通の信念)を追跡できる明示的なマインドモジュールを設計する。
実験により、精神状態モデリングを用いたモデルが、共通の地盤を整列する際の人間の反応に類似できることが示されている。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - Theoretical Modeling of Communication Dynamics [0.0]
評論ゲームは、参加するエージェントの信頼性、他者が認識する誠実さに焦点を当てている。
シコファント、自我中心性、病理的嘘、送信者に対する攻撃性など、様々な送信者および受信者戦略が研究されている。
ミニマリストの悪意ある戦略は、操作的、支配的、破壊的であり、他人のコストに対する評判を著しく高める。
論文 参考訳(メタデータ) (2021-06-09T22:02:19Z) - Towards Socially Intelligent Agents with Mental State Transition and
Human Utility [97.01430011496576]
対話エージェントに精神状態と実用性モデルを取り入れることを提案する。
ハイブリッド精神状態は、対話とイベント観察の両方から情報を抽出する。
ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットから人間の好みを学習するランキングモデルである。
論文 参考訳(メタデータ) (2021-03-12T00:06:51Z) - How social feedback processing in the brain shapes collective opinion
processes in the era of social media [0.0]
社会的フィードバックの処理に関する最近の神経科学的知見に基づいて,これらの問題に対処できる理論モデルを構築した。
少数派が結束的な集団として振る舞うと、強い多数派でさえ黙らざるを得ない。
社会的フィードバック理論の枠組みは、社会的および認知神経科学における発見の社会的レベルの含意を理解するために、社会学的理論の必要性を強調している。
論文 参考訳(メタデータ) (2020-03-18T11:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。