論文の概要: Cross-Genre Argument Mining: Can Language Models Automatically Fill in
Missing Discourse Markers?
- arxiv url: http://arxiv.org/abs/2306.04314v1
- Date: Wed, 7 Jun 2023 10:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:10:31.824224
- Title: Cross-Genre Argument Mining: Can Language Models Automatically Fill in
Missing Discourse Markers?
- Title(参考訳): クロスジェネラルな議論マイニング: 言語モデルが談話マーカーに自動的に満たせるか?
- Authors: Gil Rocha, Henrique Lopes Cardoso, Jonas Belouadi, Steffen Eger
- Abstract要約: 本稿では,すべての関係が明示的に示されるような談話マーカーで与えられたテキストを自動的に拡張することを提案する。
我々の分析では、このタスクで人気のある言語モデルが失敗することが明らかになっている。
異なるコーパスで評価したArgument Miningダウンストリームタスクに対するアプローチの効果を実演する。
- 参考スコア(独自算出の注目度): 17.610382230820395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Available corpora for Argument Mining differ along several axes, and one of
the key differences is the presence (or absence) of discourse markers to signal
argumentative content. Exploring effective ways to use discourse markers has
received wide attention in various discourse parsing tasks, from which it is
well-known that discourse markers are strong indicators of discourse relations.
To improve the robustness of Argument Mining systems across different genres,
we propose to automatically augment a given text with discourse markers such
that all relations are explicitly signaled. Our analysis unveils that popular
language models taken out-of-the-box fail on this task; however, when
fine-tuned on a new heterogeneous dataset that we construct (including
synthetic and real examples), they perform considerably better. We demonstrate
the impact of our approach on an Argument Mining downstream task, evaluated on
different corpora, showing that language models can be trained to automatically
fill in discourse markers across different corpora, improving the performance
of a downstream model in some, but not all, cases. Our proposed approach can
further be employed as an assistive tool for better discourse understanding.
- Abstract(参考訳): アーギュメントマイニングのための利用可能なコーパスは、いくつかの軸に沿って異なり、重要な違いの1つは、議論的内容を伝えるための談話マーカーの存在(または欠如)である。
談話マーカーを効果的に活用する方法の探索は、さまざまな談話解析タスクにおいて広く注目されており、談話マーカーが談話関係の強い指標であることが知られている。
異なるジャンルにわたるアーグメントマイニングシステムのロバスト性を改善するため,すべての関係が明示的に示されるような談話マーカーを用いたテキストの自動拡張を提案する。
我々の分析では、このタスクで一般的な言語モデルは失敗するが、構築する新たな異種データセット(合成例や実例を含む)を微調整すると、かなり性能が向上する。
提案手法が,異なるコーパス上で評価されたArgument Miningダウンストリームタスクに与える影響を実証し,異なるコーパスをまたいだ談話マーカーを自動的に入力し,ダウンストリームモデルの性能を向上させることができることを示した。
提案手法はさらに,談話理解のための補助ツールとして活用することができる。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Distributed Marker Representation for Ambiguous Discourse Markers and
Entangled Relations [50.31129784616845]
我々は、無制限の談話マーカーデータと潜在談話感覚を利用して分散マーカ表現(DMR)を学習する。
提案手法は,対話マーカー間の複雑なあいまいさや絡み合いや,手動で定義した談話関係を理解する上でも有用である。
論文 参考訳(メタデータ) (2023-06-19T00:49:51Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。