論文の概要: GCNet: Graph Completion Network for Incomplete Multimodal Learning in
Conversation
- arxiv url: http://arxiv.org/abs/2203.02177v1
- Date: Fri, 4 Mar 2022 08:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:19:00.582892
- Title: GCNet: Graph Completion Network for Incomplete Multimodal Learning in
Conversation
- Title(参考訳): gcnet:会話における不完全マルチモーダル学習のためのグラフ補完ネットワーク
- Authors: Zheng Lian, Lan Chen, Licai Sun, Bin Liu, Jianhua Tao
- Abstract要約: グラフ完全ネットワーク(GCNet)と呼ばれる会話における不完全なマルチモーダル学習のための新しいフレームワークを提案する。
我々のGCNetは、2つのよく設計されたグラフニューラルネットワークベースのモジュール、"Speaker GNN"と"Temporal GNN"を含んでおり、会話中の時間的および話者的情報をキャプチャしている。
特徴学習における完全かつ不完全なデータを完全に活用するために、分類と再構築をエンドツーエンドで共同で最適化する。
- 参考スコア(独自算出の注目度): 43.79770897364927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversations have become a critical data format on social media platforms.
Understanding conversation from emotion, content, and other aspects also
attracts increasing attention from researchers due to its widespread
application in human-computer interaction. In real-world environments, we often
encounter the problem of incomplete modalities, which has become a core issue
of conversation understanding. To address this problem, researchers propose
various methods. However, existing approaches are mainly designed for
individual utterances or medical images rather than conversational data, which
cannot exploit temporal and speaker information in conversations. To this end,
we propose a novel framework for incomplete multimodal learning in
conversations, called "Graph Complete Network (GCNet)", filling the gap of
existing works. Our GCNet contains two well-designed graph neural network-based
modules, "Speaker GNN" and "Temporal GNN", to capture temporal and speaker
information in conversations. To make full use of complete and incomplete data
in feature learning, we jointly optimize classification and reconstruction in
an end-to-end manner. To verify the effectiveness of our method, we conduct
experiments on three benchmark conversational datasets. Experimental results
demonstrate that our GCNet is superior to existing state-of-the-art approaches
in incomplete multimodal learning.
- Abstract(参考訳): 会話はソーシャルメディアプラットフォーム上で重要なデータフォーマットになっています。
感情、内容、その他の側面からの会話を理解することは、人間とコンピュータの相互作用に広く応用されているため、研究者の注目を集める。
現実の環境では、会話理解の中核となる不完全なモダリティの問題に遭遇することが多い。
この問題に対処するため、研究者は様々な方法を提案する。
しかし、既存のアプローチは主に会話データではなく個々の発話や医療画像向けに設計されており、会話における時間的情報や話者情報を活用できない。
そこで本研究では,会話における不完全なマルチモーダル学習のための新しいフレームワーク"Graph Complete Network (GCNet)"を提案し,既存の作業のギャップを埋める。
我々のGCNetは、2つのよく設計されたグラフニューラルネットワークベースのモジュール「Speaker GNN」と「Temporal GNN」を含んでおり、会話中の時間的および話者的情報をキャプチャしている。
機能学習において完全で不完全なデータをフルに活用するために,エンドツーエンドで分類と再構成を共同で最適化する。
提案手法の有効性を検証するため,3つのベンチマーク対話データセットを用いて実験を行った。
実験の結果,GCNetは非完全マルチモーダル学習における最先端手法よりも優れていることがわかった。
関連論文リスト
- Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。
我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition [14.645598552036908]
会話におけるマルチモーダル感情認識(MERC)は、テキスト、聴覚、視覚的モーダル特徴を用いて発話感情を分類することを目的としている。
既存のMERC手法の多くは、それぞれの発話が完全なモーダル性を持っていると仮定し、現実世界のシナリオにおける不完全モーダル性の一般的な問題を見越している。
会話感情認識における不完全なマルチモーダル学習のためのスペクトル領域再構成グラフニューラルネットワーク(SDR-GNN)を提案する。
論文 参考訳(メタデータ) (2024-11-29T16:31:50Z) - Multi-turn Response Selection with Commonsense-enhanced Language Models [32.921901489497714]
我々は、事前学習された言語モデルとグラフニューラルネットワーク(SinLG)が融合したシームズネットワークを設計する。
SinLGは、事前訓練された言語モデル(PLM)を利用して、文脈と応答候補における単語相関をキャッチする。
GNNはPLMの微調整を支援することを目的としており、関連する記憶を刺激してパフォーマンスの向上を目指している。
論文 参考訳(メタデータ) (2024-07-26T03:13:47Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Discovering Dialog Structure Graph for Open-Domain Dialog Generation [51.29286279366361]
chitchat corporaの対話構造を無監督で発見します。
次に、下流システムでのダイアログ生成を容易にするために利用します。
本稿では,グラフニューラルネットワーク(DVAE-GNN)を用いた離散変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-31T10:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。