Fugu-MT 論文翻訳(概要): ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations

論文の概要: ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations

arxiv url: http://arxiv.org/abs/2304.14827v3
Date: Fri, 26 Jan 2024 10:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 18:33:55.924501
Title: ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations
Title（参考訳）: 文レベルの関係に関するチャットGPT評価:時間的・因果的・会話的関係に着目して
Authors: Chunkit Chan, Jiayang Cheng, Weiqi Wang, Yuxin Jiang, Tianqing Fang, Xin Liu, Yangqiu Song
Abstract要約: 対話型大規模言語モデルChatGPTの性能を,文間関係に基づいて定量的に評価する。 ChatGPTは因果関係の検出と推論において極めて優れた能力を示す。既存の明示的な談話接続物との談話関係の大多数を特定できるが、暗黙的な談話関係は依然として恐ろしい課題である。
参考スコア（独自算出の注目度）: 52.26802326949116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to quantitatively evaluate the performance of ChatGPT, an interactive large language model, on inter-sentential relations such as temporal relations, causal relations, and discourse relations. Given ChatGPT's promising performance across various tasks, we proceed to carry out thorough evaluations on the whole test sets of 11 datasets, including temporal and causal relations, PDTB2.0-based, and dialogue-based discourse relations. To ensure the reliability of our findings, we employ three tailored prompt templates for each task, including the zero-shot prompt template, zero-shot prompt engineering (PE) template, and in-context learning (ICL) prompt template, to establish the initial baseline scores for all popular sentence-pair relation classification tasks for the first time. Through our study, we discover that ChatGPT exhibits exceptional proficiency in detecting and reasoning about causal relations, albeit it may not possess the same level of expertise in identifying the temporal order between two events. While it is capable of identifying the majority of discourse relations with existing explicit discourse connectives, the implicit discourse relation remains a formidable challenge. Concurrently, ChatGPT demonstrates subpar performance in the dialogue discourse parsing task that requires structural understanding in a dialogue before being aware of the discourse relation.
Abstract（参考訳）: 本稿では,対話型大規模言語モデルChatGPTの性能を時間的関係,因果関係,談話関係などの関係性に基づいて定量的に評価することを目的とする。様々なタスクにおけるChatGPTの有望な性能を考慮すると、時間的・因果関係、PDTB2.0に基づく、対話に基づく談話関係を含む11のデータセットのテストセット全体に対して、徹底的な評価を行う。この結果の信頼性を確保するため,ゼロショットプロンプトテンプレート,ゼロショットプロンプトエンジニアリング(PE)テンプレート,インコンテクスト学習(ICL)プロンプトテンプレートなど,各タスクに適した3つのプロンプトテンプレートを用いて,すべての一般的な文対関係分類タスクのベースラインスコアを初めて確立した。本研究により,ChatGPTは因果関係の検出と推論において極めて優れた能力を持つことが明らかとなった。既存の明示的な談話接続物との談話関係の大多数を特定できるが、暗黙的な談話関係は依然として恐ろしい課題である。同時に、ChatGPTは、会話関係に気付く前に対話の構造的理解を必要とする対話談話解析タスクにおいて、サブパーパフォーマンスを示す。

関連論文リスト

REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。 EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T20:29:01Z)
X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。従来の設定では、各参加者は一度に1つのメッセージに制限される。本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study [51.079100495163736]
本稿では、トピックセグメンテーションと談話解析という2つの談話分析タスクにおけるChatGPTの性能を体系的に検証する。 ChatGPTは、一般的なドメイン間会話においてトピック構造を特定する能力を示すが、特定のドメイン間会話ではかなり困難である。我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析することしかできないことを示唆している。
論文参考訳（メタデータ） (2023-05-15T07:14:41Z)
A Preliminary Evaluation of ChatGPT for Zero-shot Dialogue Understanding [55.37338324658501]
ゼロショット対話理解は、ユーザーのニーズをトレーニングデータなしで追跡できるようにすることを目的としている。本研究では,ゼロショット対話理解タスクにおけるChatGPTの理解能力について検討する。
論文参考訳（メタデータ） (2023-04-09T15:28:36Z)
Learning to Memorize Entailment and Discourse Relations for Persona-Consistent Dialogues [8.652711997920463]
既存の作業は、高度ネットワーク構造を持つ対話者ペルソナを意図的に学習することで、対話システムの性能を改善した。本研究は,ペルソナ一貫性のある対話課題における係り受け関係と談話関係を記憶する学習方法を提案する。
論文参考訳（メタデータ） (2023-01-12T08:37:00Z)
Multi-tasking Dialogue Comprehension with Discourse Parsing [43.352833140317486]
マルチパーティ対話型MRCタスクにおいて,QAと談話解析(DP)を併用する最初のマルチタスクモデルを提案する。以上の結果から,相補的なタスクによるトレーニングは,QAタスクだけでなく,DPタスク自体にも効果があることが示唆された。
論文参考訳（メタデータ） (2021-10-07T08:51:49Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文参考訳（メタデータ） (2021-06-08T17:59:21Z)
Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文参考訳（メタデータ） (2021-05-23T15:16:54Z)
DDRel: A New Dataset for Interpersonal Relation Classification in Dyadic Dialogues [11.531187569461489]
本稿では,対話に基づく対話者関係分類の課題を提案する。我々はIMSDbから映画スクリプトをクロールし、13の事前定義された関係に従って各セッションの関連ラベルを注釈付けした。注釈付きデータセットDDRelは、合計53,126発の694対の話者間の6300のダイアディック対話セッションで構成されている。
論文参考訳（メタデータ） (2020-12-04T12:30:31Z)
Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文参考訳（メタデータ） (2020-04-17T03:51:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。