論文の概要: Acquired TASTE: Multimodal Stance Detection with Textual and Structural Embeddings
- arxiv url: http://arxiv.org/abs/2412.03681v2
- Date: Fri, 06 Dec 2024 09:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 12:36:34.503839
- Title: Acquired TASTE: Multimodal Stance Detection with Textual and Structural Embeddings
- Title(参考訳): テキストおよび構造埋め込みを用いたマルチモーダルスタンス検出装置TASTEの取得
- Authors: Guy Barel, Oren Tsur, Dan Vilenchik,
- Abstract要約: スタンス検出は、談話解析から偽ニュースの拡散の追跡、科学的事実の否定まで、幅広い下流の応用を可能にする上で重要な役割を担っている。
TASTEは、トランスフォーマーベースのコンテンツ埋め込みと教師なし構造埋め込みを調和して融合する、スタンス検出のためのマルチモーダルアーキテクチャである。
TASTEは、一般的なベンチマークで最先端の結果を達成し、強力なベースラインの配列を著しく上回っている。
- 参考スコア(独自算出の注目度): 5.229806149125529
- License:
- Abstract: Stance detection plays a pivotal role in enabling an extensive range of downstream applications, from discourse parsing to tracing the spread of fake news and the denial of scientific facts. While most stance classification models rely on textual representation of the utterance in question, prior work has demonstrated the importance of the conversational context in stance detection. In this work we introduce TASTE -- a multimodal architecture for stance detection that harmoniously fuses Transformer-based content embedding with unsupervised structural embedding. Through the fine-tuning of a pretrained transformer and the amalgamation with social embedding via a Gated Residual Network (GRN) layer, our model adeptly captures the complex interplay between content and conversational structure in determining stance. TASTE achieves state-of-the-art results on common benchmarks, significantly outperforming an array of strong baselines. Comparative evaluations underscore the benefits of social grounding -- emphasizing the criticality of concurrently harnessing both content and structure for enhanced stance detection.
- Abstract(参考訳): スタンス検出は、談話解析から偽ニュースの拡散の追跡、科学的事実の否定まで、幅広い下流の応用を可能にする上で重要な役割を担っている。
ほとんどのスタンス分類モデルは、問題となる発話のテキスト表現に依存しているが、先行研究は、スタンス検出における会話コンテキストの重要性を実証している。
本研究では,Transformerベースのコンテンツ埋め込みと教師なし構造埋め込みを調和して融合する,スタンス検出のためのマルチモーダルアーキテクチャであるTASTEを紹介する。
事前学習した変換器の微調整とGated Residual Network (GRN) 層によるソーシャル埋め込みによるアマルガメーションにより,我々のモデルは姿勢決定におけるコンテンツと会話構造の間の複雑な相互作用を十分に捉えている。
TASTEは、一般的なベンチマークで最先端の結果を達成し、強力なベースラインの配列を著しく上回っている。
コンテントと構造を同時に活用し、スタンス検出を強化することの重要性を強調した。
関連論文リスト
- CoSD: Collaborative Stance Detection with Contrastive Heterogeneous Topic Graph Learning [18.75039816544345]
我々はCoSD(CoSD)と呼ばれる新しい協調姿勢検出フレームワークを提案する。
CoSDは、テキスト、トピック、スタンスラベル間のトピック認識のセマンティクスと協調的なシグナルを学ぶ。
2つのベンチマークデータセットの実験では、CoSDの最先端検出性能が示されている。
論文 参考訳(メタデータ) (2024-04-26T02:04:05Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Augmenting Transformers with Recursively Composed Multi-grained
Representations [42.87750629061462]
ReCATは、学習と推論の両方の間、金の木に頼ることなく、生テキストの階層的構文構造を明示的にモデル化することができる。
Transformerの組み込み層とアテンション層の間にCIO層を積み重ねることで、ReCATモデルは、ディープ・イン・スパンとディープ・インター・スパンの両方のインタラクションを実行することができる。
論文 参考訳(メタデータ) (2023-09-28T10:24:39Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - CATrans: Context and Affinity Transformer for Few-Shot Segmentation [36.802347383825705]
Few-shot segmentation (FSS) は、注釈付きサポート画像が不足している場合に、新しいカテゴリを分割することを目的としている。
本研究では,提案するコンテキスト・アフィニティ変換器を用いて,コンテキスト・アフィニティ情報を効果的に統合する。
提案手法の有効性を実証するために実験を行い,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-27T10:20:47Z) - HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly
Supervised Relation Extraction [24.853265244512954]
雑音の少ない文を抽出するための階層的コントラスト学習フレームワーク (HiCLRE) を提案する。
具体的には,3段階の階層型学習フレームワークを提案する。
実験により、HiCLREは様々なメインストリームDSREデータセットにおいて、強いベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-27T12:48:26Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Predicting Above-Sentence Discourse Structure using Distant Supervision
from Topic Segmentation [8.688675709130289]
RSTスタイルの談話解析は多くのNLPタスクにおいて重要な役割を担っている。
その重要性にもかかわらず、現代の談話解析における最も一般的な制限の1つは、大規模なデータセットの欠如である。
論文 参考訳(メタデータ) (2021-12-12T10:16:45Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。