論文の概要: Discovering Elementary Discourse Units in Textual Data Using Canonical Correlation Analysis
- arxiv url: http://arxiv.org/abs/2406.12997v2
- Date: Wed, 16 Oct 2024 03:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:08.459804
- Title: Discovering Elementary Discourse Units in Textual Data Using Canonical Correlation Analysis
- Title(参考訳): 正準相関解析を用いたテキストデータ中の初等談話単位の発見
- Authors: Akanksha Mehndiratta, Krishna Asawa,
- Abstract要約: 本研究は,初等談話単位(EDU)の同定におけるカノニカル相関分析(CCA)の可能性を示すことによって,さらに一歩進める。
モデルは単純で、線形で、適応可能で、言語に依存しないため、特にラベル付きトレーニングデータが不足している場合、理想的なベースラインとなる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Canonical Correlation Analysis (CCA) has been exploited immensely for learning latent representations in various fields. This study takes a step further by demonstrating the potential of CCA in identifying Elementary Discourse Units(EDUs) that captures the latent information within the textual data. The probabilistic interpretation of CCA discussed in this study utilizes the two-view nature of textual data, i.e. the consecutive sentences in a document or turns in a dyadic conversation, and has a strong theoretical foundation. Furthermore, this study proposes a model for Elementary Discourse Unit(EDU) segmentation that discovers EDUs in textual data without any supervision. To validate the model, the EDUs are utilized as textual unit for content selection in textual similarity task. Empirical results on Semantic Textual Similarity(STSB) and Mohler datasets confirm that, despite represented as a unigram, the EDUs deliver competitive results and can even beat various sophisticated supervised techniques. The model is simple, linear, adaptable and language independent making it an ideal baseline particularly when labeled training data is scarce or nonexistent.
- Abstract(参考訳): 正準相関解析(CCA)は様々な分野における潜在表現の学習に大いに活用されている。
本研究は,テキストデータ中の潜伏情報をキャプチャする初等談話単位(EDU)の同定におけるCAAの可能性を示す。
本研究で論じるCCAの確率論的解釈は,文書中の連続文やダイアディック会話における旋回文という,テキストデータの2つの視点の性質を利用しており,理論的基盤が強い。
さらに,本研究では,テキストデータ中のEDUを監督せずに検出する,初等談話単位(EDU)セグメンテーションのモデルを提案する。
このモデルを検証するために、EDUはテキスト類似性タスクにおけるコンテンツ選択のためのテキスト単位として利用される。
Semantic Textual similarity(STSB)とMohlerデータセットの実証的な結果は、ユニグラムとして表現されているにもかかわらず、EDUは競争力のある結果をもたらし、様々な高度な教師付き技術に打ち勝つことができることを確認している。
モデルは単純で、線形で、適応可能で、言語に依存しないため、特にラベル付きトレーニングデータが不足している場合、理想的なベースラインとなる。
関連論文リスト
- A Hybrid Approach To Aspect Based Sentiment Analysis Using Transfer Learning [3.30307212568497]
本稿では,移動学習を用いたアスペクトベース感性分析のためのハイブリッド手法を提案する。
このアプローチは、大きな言語モデル(LLM)と従来の構文的依存関係の両方の長所を利用して、弱い教師付きアノテーションを生成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-25T23:02:33Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Exploring the Power of Topic Modeling Techniques in Analyzing Customer
Reviews: A Comparative Analysis [0.0]
大量のテキストデータをオンラインで分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。
本研究では,顧客レビューに特化して用いられる5つのトピックモデリング手法について検討・比較する。
以上の結果から,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。
論文 参考訳(メタデータ) (2023-08-19T08:18:04Z) - Unimodal and Multimodal Representation Training for Relation Extraction [0.0]
テキスト、レイアウト、視覚情報のマルチモーダル統合は、関係抽出(RE)を含む視覚的にリッチな文書理解(VrDU)タスクにおいて、SOTAの結果を得た。
本稿では、各データ型を反復的に除外する実験を行うことにより、REタスクの共有表現の価値を実証する。
バイモーダルテキストとレイアウトアプローチが最善であるのに対して、テキストはエンティティ関係の最も重要な単一予測器であることを示す。
論文 参考訳(メタデータ) (2022-11-11T12:39:35Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Full-Text Argumentation Mining on Scientific Publications [3.8754200816873787]
フルテキストSAMに対してADURとAREを組み合わせた逐次パイプラインモデルを提案する。
両サブタスクにおける事前学習言語モデル(PLM)の性能について,最初の解析を行った。
本稿では,非連続型ADUと談話コネクタの解釈が重要な課題であることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:05:30Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。