論文の概要: Multipar-T: Multiparty-Transformer for Capturing Contingent Behaviors in
Group Conversations
- arxiv url: http://arxiv.org/abs/2304.12204v1
- Date: Wed, 19 Apr 2023 20:23:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:39:30.722289
- Title: Multipar-T: Multiparty-Transformer for Capturing Contingent Behaviors in
Group Conversations
- Title(参考訳): Multipar-T: グループ会話における係り受け動作をキャプチャするマルチパーティ変換器
- Authors: Dong Won Lee, Yubin Kim, Rosalind Picard, Cynthia Breazeal, Hae Won
Park
- Abstract要約: マルチパーティビヘイビアモデリングのためのトランスモデルであるマルチパーティ・トランス (Multipar-T) を提案する。
提案手法の中核となるのはクロスパーソン・アテンション(Crossperson Attention)である。
公開されているビデオベースグループエンゲージメント検出ベンチマークにおいて,Multipar-Tの有効性を検証する。
- 参考スコア(独自算出の注目度): 25.305521223925428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As we move closer to real-world AI systems, AI agents must be able to deal
with multiparty (group) conversations. Recognizing and interpreting multiparty
behaviors is challenging, as the system must recognize individual behavioral
cues, deal with the complexity of multiple streams of data from multiple
people, and recognize the subtle contingent social exchanges that take place
amongst group members. To tackle this challenge, we propose the
Multiparty-Transformer (Multipar-T), a transformer model for multiparty
behavior modeling. The core component of our proposed approach is the
Crossperson Attention, which is specifically designed to detect contingent
behavior between pairs of people. We verify the effectiveness of Multipar-T on
a publicly available video-based group engagement detection benchmark, where it
outperforms state-of-the-art approaches in average F-1 scores by 5.2% and
individual class F-1 scores by up to 10.0%. Through qualitative analysis, we
show that our Crossperson Attention module is able to discover contingent
behavior.
- Abstract(参考訳): 現実のAIシステムに近づくにつれて、AIエージェントはマルチパーティ(グループ)の会話に対処できなければならない。
システムは個々の行動の手がかりを認識し、複数の人のデータストリームの複雑さに対応し、グループメンバー間で起こる微妙な偶然の社会的交流を認識する必要があるため、多人数の行動を認識して解釈することは困難である。
この課題に対処するため,マルチパーティ動作モデリングのためのトランスフォーマーモデルであるMultipar-Tを提案する。
提案するアプローチのコアコンポーネントは、対人的注意(crossperson attention)です。
我々は、Multipar-Tの有効性をビデオベースグループエンゲージメント検出ベンチマークで検証し、平均F-1スコアにおける最先端のアプローチを5.2%、クラスF-1スコアを最大10.0%上回る結果を得た。
定性的分析により,我々のクロスパーソン・アテンション・モジュールは随伴行動を発見することができることを示す。
関連論文リスト
- DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation [42.87704953679693]
エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を果たす。
本稿では,音声視覚入力のみに依存し,言語に依存しない対話対応トランスフォーマフレームワークを提案する。
提案手法では, NoXi ベーステストセットの平均 CCC は 0.76 であり, NoXi ベース, NoXi-Add および MPIIGI テストセットの平均 CCC は 0.64 である。
論文 参考訳(メタデータ) (2024-10-11T02:43:45Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Multilevel Transformer For Multimodal Emotion Recognition [6.0149102420697025]
本稿では,微粒化表現と事前学習した発話レベル表現を組み合わせた新しい多粒度フレームワークを提案する。
本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:31:24Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。