論文の概要: GCNet: Graph Completion Network for Incomplete Multimodal Learning in
Conversation
- arxiv url: http://arxiv.org/abs/2203.02177v1
- Date: Fri, 4 Mar 2022 08:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:19:00.582892
- Title: GCNet: Graph Completion Network for Incomplete Multimodal Learning in
Conversation
- Title(参考訳): gcnet:会話における不完全マルチモーダル学習のためのグラフ補完ネットワーク
- Authors: Zheng Lian, Lan Chen, Licai Sun, Bin Liu, Jianhua Tao
- Abstract要約: グラフ完全ネットワーク(GCNet)と呼ばれる会話における不完全なマルチモーダル学習のための新しいフレームワークを提案する。
我々のGCNetは、2つのよく設計されたグラフニューラルネットワークベースのモジュール、"Speaker GNN"と"Temporal GNN"を含んでおり、会話中の時間的および話者的情報をキャプチャしている。
特徴学習における完全かつ不完全なデータを完全に活用するために、分類と再構築をエンドツーエンドで共同で最適化する。
- 参考スコア(独自算出の注目度): 43.79770897364927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversations have become a critical data format on social media platforms.
Understanding conversation from emotion, content, and other aspects also
attracts increasing attention from researchers due to its widespread
application in human-computer interaction. In real-world environments, we often
encounter the problem of incomplete modalities, which has become a core issue
of conversation understanding. To address this problem, researchers propose
various methods. However, existing approaches are mainly designed for
individual utterances or medical images rather than conversational data, which
cannot exploit temporal and speaker information in conversations. To this end,
we propose a novel framework for incomplete multimodal learning in
conversations, called "Graph Complete Network (GCNet)", filling the gap of
existing works. Our GCNet contains two well-designed graph neural network-based
modules, "Speaker GNN" and "Temporal GNN", to capture temporal and speaker
information in conversations. To make full use of complete and incomplete data
in feature learning, we jointly optimize classification and reconstruction in
an end-to-end manner. To verify the effectiveness of our method, we conduct
experiments on three benchmark conversational datasets. Experimental results
demonstrate that our GCNet is superior to existing state-of-the-art approaches
in incomplete multimodal learning.
- Abstract(参考訳): 会話はソーシャルメディアプラットフォーム上で重要なデータフォーマットになっています。
感情、内容、その他の側面からの会話を理解することは、人間とコンピュータの相互作用に広く応用されているため、研究者の注目を集める。
現実の環境では、会話理解の中核となる不完全なモダリティの問題に遭遇することが多い。
この問題に対処するため、研究者は様々な方法を提案する。
しかし、既存のアプローチは主に会話データではなく個々の発話や医療画像向けに設計されており、会話における時間的情報や話者情報を活用できない。
そこで本研究では,会話における不完全なマルチモーダル学習のための新しいフレームワーク"Graph Complete Network (GCNet)"を提案し,既存の作業のギャップを埋める。
我々のGCNetは、2つのよく設計されたグラフニューラルネットワークベースのモジュール「Speaker GNN」と「Temporal GNN」を含んでおり、会話中の時間的および話者的情報をキャプチャしている。
機能学習において完全で不完全なデータをフルに活用するために,エンドツーエンドで分類と再構成を共同で最適化する。
提案手法の有効性を検証するため,3つのベンチマーク対話データセットを用いて実験を行った。
実験の結果,GCNetは非完全マルチモーダル学習における最先端手法よりも優れていることがわかった。
関連論文リスト
- Multi-turn Response Selection with Commonsense-enhanced Language Models [32.921901489497714]
我々は、事前学習された言語モデルとグラフニューラルネットワーク(SinLG)が融合したシームズネットワークを設計する。
SinLGは、事前訓練された言語モデル(PLM)を利用して、文脈と応答候補における単語相関をキャッチする。
GNNはPLMの微調整を支援することを目的としており、関連する記憶を刺激してパフォーマンスの向上を目指している。
論文 参考訳(メタデータ) (2024-07-26T03:13:47Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Exploring Graph-aware Multi-View Fusion for Rumor Detection on Social
Media [23.231289922442414]
噂表現学習と分類のための新しい多視点融合フレームワークを提案する。
グラフ畳み込みニューラルネットワーク(GCN)に基づいて複数のビューを符号化し、畳み込みニューラルネットワーク(CNN)を活用する。
2つの公開データセットの実験結果から,本手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-08T13:27:43Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z) - Discovering Dialog Structure Graph for Open-Domain Dialog Generation [51.29286279366361]
chitchat corporaの対話構造を無監督で発見します。
次に、下流システムでのダイアログ生成を容易にするために利用します。
本稿では,グラフニューラルネットワーク(DVAE-GNN)を用いた離散変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-31T10:58:37Z) - Online Conversation Disentanglement with Pointer Networks [13.063606578730449]
本稿では,会話の絡み合わせのためのエンドツーエンドのオンラインフレームワークを提案する。
我々は、タイムスタンプ、話者、メッセージテキストを含む全発話を埋め込む新しい手法を設計する。
Ubuntu IRCデータセットを用いた実験により,提案手法はリンクと会話の予測タスクにおいて,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。