論文の概要: BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2511.13095v1
- Date: Mon, 17 Nov 2025 07:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.909266
- Title: BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models
- Title(参考訳): BeDiscovER: 推論言語モデルの時代における会話理解のベンチマーク
- Authors: Chuyuan Li, Giuseppe Carenini,
- Abstract要約: 本稿では,現代LLMの談話レベルの知識を評価するための,最新の包括的スイートであるBeDiscovERを紹介する。
BeDiscovERは、公開可能な5つの談話タスクを、談話辞書、(複数)テキストレベル、ドキュメントレベルにコンパイルし、合計52のデータセットを格納する。
- 参考スコア(独自算出の注目度): 13.300475053766862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce BeDiscovER (Benchmark of Discourse Understanding in the Era of Reasoning Language Models), an up-to-date, comprehensive suite for evaluating the discourse-level knowledge of modern LLMs. BeDiscovER compiles 5 publicly available discourse tasks across discourse lexicon, (multi-)sentential, and documental levels, with in total 52 individual datasets. It covers both extensively studied tasks such as discourse parsing and temporal relation extraction, as well as some novel challenges such as discourse particle disambiguation (e.g., ``just''), and also aggregates a shared task on Discourse Relation Parsing and Treebanking for multilingual and multi-framework discourse relation classification. We evaluate open-source LLMs: Qwen3 series, DeepSeek-R1, and frontier model such as GPT-5-mini on BeDiscovER, and find that state-of-the-art models exhibit strong performance in arithmetic aspect of temporal reasoning, but they struggle with full document reasoning and some subtle semantic and discourse phenomena, such as rhetorical relation recognition.
- Abstract(参考訳): 本稿では,現代のLLMの談話レベルの知識を評価するための,最新の包括的スイートであるBeDiscovERを紹介する。
BeDiscovERは、公開可能な5つの談話タスクを、談話辞書、(複数)テキストレベル、ドキュメントレベルにコンパイルし、合計52のデータセットを格納する。
談話パーシングや時間的関係抽出といった広範囲に研究されたタスクと、談話粒子の曖昧さ(例: 'just'')などの新しい課題の両方をカバーし、多言語および多フレームの談話関係分類のための談話関係パーシングとツリーバンクリングの共有タスクを集約する。
本研究では,BeDiscovER上でのQwen3シリーズ,DeepSeek-R1,GPT-5-miniなどのフロンティアモデルの評価を行い,時間的推論の算術的側面において最先端のモデルが強い性能を示すことを示した。
関連論文リスト
- DiscoTrack: A Multilingual LLM Benchmark for Discourse Tracking [6.8009771183515575]
本稿では,12言語にまたがるタスクと4段階の談話理解を対象とするLCMベンチマークであるDiscoTrackを紹介する。
評価の結果,現状のモデルにおいても,これらの課題は依然として困難なままであることがわかった。
論文 参考訳(メタデータ) (2025-10-19T21:26:27Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。
概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T20:20:24Z) - DEPTH: Discourse Education through Pre-Training Hierarchically [33.89893399779713]
DEPTHは、談話指向の事前学習目標を用いて文の潜在表現を学習するエンコーダ・デコーダモデルである。
我々のアプローチは、他の自然言語理解能力(NLU)に最小限の影響を与えながら、T5の談話能力を拡張する。
論文 参考訳(メタデータ) (2024-05-13T14:35:30Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal,
Causal, and Discourse Relations [52.26802326949116]
対話型大規模言語モデルChatGPTの性能を,文間関係に基づいて定量的に評価する。
ChatGPTは因果関係の検出と推論において極めて優れた能力を示す。
既存の明示的な談話接続物との談話関係の大多数を特定できるが、暗黙的な談話関係は依然として恐ろしい課題である。
論文 参考訳(メタデータ) (2023-04-28T13:14:36Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Discourse Parsing of Contentious, Non-Convergent Online Discussions [0.16311150636417257]
対話論のバフティニア理論に着想を得て,新しい理論と計算の枠組みを提案する。
我々は,分散戦略の階層を反映する新しい談話アノテーションスキーマを開発した。
議論のないオンライン議論の最初のラベル付きデータセットを共有します。
論文 参考訳(メタデータ) (2020-12-08T17:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。