論文の概要: ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2410.13667v1
- Date: Thu, 17 Oct 2024 15:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:02.478009
- Title: ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization
- Title(参考訳): ORCHID: ターゲット非依存のスタンス検出と調音対話要約のための中国語談話コーパス
- Authors: Xiutian Zhao, Ke Wang, Wei Peng,
- Abstract要約: オーラル・チャイナ・ディベート(Oral Chinese Debate)は、標的非依存の姿勢検出と議論の要約をベンチマークする最初の中国のデータセットである。
このデータセットは、中国語で476のユニークなトピックについて行われた1,218の現実世界の討論から成り、その内容は2,436のスタンス固有の要約と14,133の完全注釈付き発話を含む。
その結果、データセットの難易度が示され、議論対話の要約にスタンス検出を組み込むことの可能性が示唆された。
- 参考スコア(独自算出の注目度): 6.723531714964794
- License:
- Abstract: Dialogue agents have been receiving increasing attention for years, and this trend has been further boosted by the recent progress of large language models (LLMs). Stance detection and dialogue summarization are two core tasks of dialogue agents in application scenarios that involve argumentative dialogues. However, research on these tasks is limited by the insufficiency of public datasets, especially for non-English languages. To address this language resource gap in Chinese, we present ORCHID (Oral Chinese Debate), the first Chinese dataset for benchmarking target-independent stance detection and debate summarization. Our dataset consists of 1,218 real-world debates that were conducted in Chinese on 476 unique topics, containing 2,436 stance-specific summaries and 14,133 fully annotated utterances. Besides providing a versatile testbed for future research, we also conduct an empirical study on the dataset and propose an integrated task. The results show the challenging nature of the dataset and suggest a potential of incorporating stance detection in summarization for argumentative dialogue.
- Abstract(参考訳): 対話エージェントは長年注目され続けており、近年の大規模言語モデル(LLM)の進展により、この傾向はさらに高まっている。
スタンス検出と対話要約は、議論的対話を含むアプリケーションシナリオにおける対話エージェントの2つのコアタスクである。
しかし、これらのタスクの研究は、特に非英語言語において、公開データセットの不十分さによって制限されている。
中国語におけるこの言語資源ギャップに対処するため、ターゲット非依存の姿勢検出と議論要約をベンチマークする最初の中国語データセットであるORCHID(Oral Chinese Debate)を提示する。
このデータセットは、中国語で476のユニークなトピックについて行われた1,218の現実世界の討論から成り、その内容は2,436のスタンス固有の要約と14,133の完全注釈付き発話を含む。
今後の研究のために汎用的なテストベッドを提供することに加えて、データセットに関する実証的研究を行い、統合タスクを提案する。
その結果、データセットの難易度が示され、議論対話の要約にスタンス検出を組み込むことの可能性が示唆された。
関連論文リスト
- CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - JMultiWOZ: A Large-Scale Japanese Multi-Domain Task-Oriented Dialogue Dataset [3.1311340484197814]
JMultiWOZは日本語初の大規模マルチドメインタスク指向対話データセットである。
我々は,最先端手法の対話状態追跡と応答生成能力について検討した。
論文 参考訳(メタデータ) (2024-03-26T02:01:18Z) - FREDSum: A Dialogue Summarization Corpus for French Political Debates [26.76383031532945]
本稿では,多言語対話要約のための資源強化を目的とした,フランスの政治論争のデータセットを提案する。
われわれのデータセットは、手書きと注釈付き政治討論から成り、さまざまなトピックや視点をカバーしている。
論文 参考訳(メタデータ) (2023-12-08T05:42:04Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。
データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文 参考訳(メタデータ) (2023-05-19T00:14:10Z) - Topic Shift Detection in Chinese Dialogues: Corpus and Benchmark [10.378163772785204]
そこで本稿では,階層的コントラスト学習に基づく教師学習フレームワークを提案し,応答を伴わないトピックシフトを予測する。
CNTD と 英語 TIAGE を用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-02T04:03:50Z) - DiaASQ : A Benchmark of Conversational Aspect-based Sentiment Quadruple
Analysis [84.80347062834517]
本稿では,対話における目標視差感の4倍を検出することを目的としたDiaASQを紹介する。
中国語と英語の両方で大規模なDiaASQデータセットを手作業で構築する。
我々は、タスクをベンチマークするニューラルネットワークを開発し、エンドツーエンドの4倍の予測を効果的に実行する。
論文 参考訳(メタデータ) (2022-11-10T17:18:20Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。