論文の概要: GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation
Understanding
- arxiv url: http://arxiv.org/abs/2305.09360v1
- Date: Tue, 16 May 2023 11:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:18:12.920053
- Title: GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation
Understanding
- Title(参考訳): GIFT:多人数会話理解のためのグラフ誘発微調整
- Authors: Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu, Guoping Hu
- Abstract要約: GIFTは、様々なトランスフォーマーベースの事前訓練言語モデルを適用して、普遍的なMPC理解を実現する。
4種類のエッジは、グラフ誘発信号と注意機構を統合するように設計されている。
- 参考スコア(独自算出の注目度): 51.37738394062851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the issues of who saying what to whom in multi-party conversations
(MPCs) has recently attracted a lot of research attention. However, existing
methods on MPC understanding typically embed interlocutors and utterances into
sequential information flows, or utilize only the superficial of inherent graph
structures in MPCs. To this end, we present a plug-and-play and lightweight
method named graph-induced fine-tuning (GIFT) which can adapt various
Transformer-based pre-trained language models (PLMs) for universal MPC
understanding. In detail, the full and equivalent connections among utterances
in regular Transformer ignore the sparse but distinctive dependency of an
utterance on another in MPCs. To distinguish different relationships between
utterances, four types of edges are designed to integrate graph-induced signals
into attention mechanisms to refine PLMs originally designed for processing
sequential texts. We evaluate GIFT by implementing it into three PLMs, and test
the performance on three downstream tasks including addressee recognition,
speaker identification and response selection. Experimental results show that
GIFT can significantly improve the performance of three PLMs on three
downstream tasks and two benchmarks with only 4 additional parameters per
encoding layer, achieving new state-of-the-art performance on MPC
understanding.
- Abstract(参考訳): マルチパーティ会話(MPC)で誰に何を言ったかという問題に、最近多くの研究が注目されている。
しかしながら、mpc理解の既存の手法では、通常、インターロカクタや発話を逐次情報フローに埋め込むか、mpcの固有グラフ構造の表面のみを利用する。
そこで本研究では,汎用MPC理解のためのトランスフォーマーベース事前学習言語モデル(PLM)に適応可能な,グラフ誘発微調整(GIFT)という,プラグアンドプレイで軽量な手法を提案する。
詳しくは、正規トランスフォーマーにおける発話間の完全かつ等価な接続は、mpcにおける発話のばらばらだが独特の依存を無視する。
発話間の異なる関係を区別するために、4種類のエッジがグラフ誘起信号を注意機構に統合し、もともとシーケンシャルテキストを処理するために設計されたPLMを洗練するように設計されている。
ギフトを3つのplmに実装して評価し,入力者認識,話者識別,応答選択という3つの下流タスクのパフォーマンスをテストした。
実験の結果,3つの下流タスクにおける3つのPLMと2つのベンチマークにおいて,符号化層当たり4つのパラメータしか持たない結果が得られた。
関連論文リスト
- Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition [27.96711773593048]
本稿では,マルチモーダル・エンド・ツー・エンド・トランス (ME2ET) を提案する。
低レベルにおいては、2パス戦略を採用することで、3モーダルな特徴相互作用をモデル化できるプログレッシブ・トリモーダル・アテンションを提案する。
高いレベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
論文 参考訳(メタデータ) (2022-09-20T14:51:38Z) - MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation
Understanding [58.95156916558384]
MPC理解のための事前学習モデルであるMPC-BERTを提案する。
我々は,MPC-BERTを,話者認識,話者識別,応答選択を含む3つの下流タスクで評価した。
論文 参考訳(メタデータ) (2021-06-03T01:49:12Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。