論文の概要: Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.06201v1
- Date: Fri, 13 Mar 2026 19:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.626591
- Title: Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models
- Title(参考訳): Beyond Facts: 大規模言語モデルにおける分散読み込みの理解のベンチマーク
- Authors: Pei-Fu Guo, Ya-An Tsai, Chun-Chia Hsu, Kai-Xin Chen, Yun-Da Tsai, Kai-Wei Chang, Nanyun Peng, Mi-Yen Yeh, Shou-De Lin,
- Abstract要約: 本研究では,LLMが自然言語から分布的知識を推測する能力を評価するための読解的ベンチマークであるText2DistBenchを紹介する。
映画と音楽のエンティティに関する実際のYouTubeコメントから構築されたこのベンチマークは、エンティティメタデータと関連するコメントを含むモデルを提供する。
信頼性と長期的な評価をサポートするため、Text2DistBenchの構築パイプラインは完全に自動化され、継続的に更新され、新たに登場したエンティティが組み込まれる。
- 参考スコア(独自算出の注目度): 67.09110757873142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While most reading comprehension benchmarks for LLMs focus on factual information that can be answered by localizing specific textual evidence, many real-world tasks require understanding distributional information, such as population-level trends and preferences expressed across collections of text. We introduce Text2DistBench, a reading comprehension benchmark for evaluating LLMs' ability to infer distributional knowledge from natural language. Built from real-world YouTube comments about movie and music entities, the benchmark provides models with entity metadata and associated comments, and requires them to answer distributional questions, such as estimating the proportions of positive and negative comments, or identifying the most and second most frequent topics discussed among viewers. To support reliable and long-term evaluation, the construction pipeline of Text2DistBench is fully automated and continuously updated to incorporate newly emerging entities over time. Experiments across multiple LLMs show that while models substantially outperform random baselines, performance varies widely across different distribution types and characteristics. These findings highlight both the capabilities and limitations of current LLMs in distributional reading comprehension and demonstrate the value of Text2DistBench as a practical and scalable testbed for future research.
- Abstract(参考訳): LLMのほとんどの読解ベンチマークは、特定のテキスト証拠のローカライズによって答えられる事実情報に焦点が当てられているが、現実のタスクの多くは、集団レベルの傾向やテキストの集合に表される嗜好などの分布情報を理解する必要がある。
本研究では,LLMが自然言語から分布的知識を推測する能力を評価するための読解的ベンチマークであるText2DistBenchを紹介する。
映画や音楽のエンティティに関する現実のYouTubeコメントから構築されたこのベンチマークは、エンティティメタデータと関連するコメントをモデルに提供し、ポジティブなコメントとネガティブなコメントの比率を推定したり、視聴者の間で議論される最も頻繁なトピックと2番目に多いトピックを特定するなど、分散的な質問に答える必要がある。
信頼性と長期的な評価をサポートするため、Text2DistBenchの構築パイプラインは完全に自動化され、継続的に更新され、新しいエンティティが時間とともに組み込まれる。
複数のLSMをまたいだ実験では、モデルがランダムなベースラインを大幅に上回るが、様々な分布タイプや特性で性能が広く異なることが示されている。
これらの知見は、分散読解における現在のLLMの機能と限界の両方を強調し、将来の研究のための実用的でスケーラブルなテストベッドとしてText2DistBenchの価値を実証する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - ViLBias: Detecting and Reasoning about Bias in Multimodal Content [6.710013984078675]
ViLBiasは、マルチモーダルニュースにおけるバイアスの検出と推論のためのフレームワークである。
データセットは40,945のテキストペアで構成されている。
その結果,テキストによる画像の検出精度は3~5%向上した。
論文 参考訳(メタデータ) (2024-12-22T15:05:30Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。