論文の概要: BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2511.13095v1
- Date: Mon, 17 Nov 2025 07:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.909266
- Title: BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models
- Title(参考訳): BeDiscovER: 推論言語モデルの時代における会話理解のベンチマーク
- Authors: Chuyuan Li, Giuseppe Carenini,
- Abstract要約: 本稿では,現代LLMの談話レベルの知識を評価するための,最新の包括的スイートであるBeDiscovERを紹介する。
BeDiscovERは、公開可能な5つの談話タスクを、談話辞書、(複数)テキストレベル、ドキュメントレベルにコンパイルし、合計52のデータセットを格納する。
- 参考スコア(独自算出の注目度): 13.300475053766862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce BeDiscovER (Benchmark of Discourse Understanding in the Era of Reasoning Language Models), an up-to-date, comprehensive suite for evaluating the discourse-level knowledge of modern LLMs. BeDiscovER compiles 5 publicly available discourse tasks across discourse lexicon, (multi-)sentential, and documental levels, with in total 52 individual datasets. It covers both extensively studied tasks such as discourse parsing and temporal relation extraction, as well as some novel challenges such as discourse particle disambiguation (e.g., ``just''), and also aggregates a shared task on Discourse Relation Parsing and Treebanking for multilingual and multi-framework discourse relation classification. We evaluate open-source LLMs: Qwen3 series, DeepSeek-R1, and frontier model such as GPT-5-mini on BeDiscovER, and find that state-of-the-art models exhibit strong performance in arithmetic aspect of temporal reasoning, but they struggle with full document reasoning and some subtle semantic and discourse phenomena, such as rhetorical relation recognition.
- Abstract(参考訳): 本稿では,現代のLLMの談話レベルの知識を評価するための,最新の包括的スイートであるBeDiscovERを紹介する。
BeDiscovERは、公開可能な5つの談話タスクを、談話辞書、(複数)テキストレベル、ドキュメントレベルにコンパイルし、合計52のデータセットを格納する。
談話パーシングや時間的関係抽出といった広範囲に研究されたタスクと、談話粒子の曖昧さ(例: 'just'')などの新しい課題の両方をカバーし、多言語および多フレームの談話関係分類のための談話関係パーシングとツリーバンクリングの共有タスクを集約する。
本研究では,BeDiscovER上でのQwen3シリーズ,DeepSeek-R1,GPT-5-miniなどのフロンティアモデルの評価を行い,時間的推論の算術的側面において最先端のモデルが強い性能を示すことを示した。
関連論文リスト
- DiscoTrack: A Multilingual LLM Benchmark for Discourse Tracking [6.8009771183515575]
本稿では,12言語にまたがるタスクと4段階の談話理解を対象とするLCMベンチマークであるDiscoTrackを紹介する。
評価の結果,現状のモデルにおいても,これらの課題は依然として困難なままであることがわかった。
論文 参考訳(メタデータ) (2025-10-19T21:26:27Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - DEPTH: Discourse Education through Pre-Training Hierarchically [33.89893399779713]
DEPTHは、談話指向の事前学習目標を用いて文の潜在表現を学習するエンコーダ・デコーダモデルである。
我々のアプローチは、他の自然言語理解能力(NLU)に最小限の影響を与えながら、T5の談話能力を拡張する。
論文 参考訳(メタデータ) (2024-05-13T14:35:30Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal,
Causal, and Discourse Relations [52.26802326949116]
対話型大規模言語モデルChatGPTの性能を,文間関係に基づいて定量的に評価する。
ChatGPTは因果関係の検出と推論において極めて優れた能力を示す。
既存の明示的な談話接続物との談話関係の大多数を特定できるが、暗黙的な談話関係は依然として恐ろしい課題である。
論文 参考訳(メタデータ) (2023-04-28T13:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。