論文の概要: MGen: Millions of Naturally Occurring Generics in Context
- arxiv url: http://arxiv.org/abs/2509.26160v1
- Date: Tue, 30 Sep 2025 12:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.127772
- Title: MGen: Millions of Naturally Occurring Generics in Context
- Title(参考訳): MGen: 自然に起こる数百万のジェネリック
- Authors: Gustavo Cilleruelo, Emily Allaway, Barry Haddow, Alexandra Birch,
- Abstract要約: MGenは400万以上の自然発生文と定量化文のデータセットである。
データセット内のジェネリクス文の特徴を興味深い洞察で分析する。
MGenは自然発生の汎用文の最大かつ最も多様なデータセットである。
- 参考スコア(独自算出の注目度): 75.4707956240456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MGen is a dataset of over 4 million naturally occurring generic and quantified sentences extracted from diverse textual sources. Sentences in the dataset have long context documents, corresponding to websites and academic papers, and cover 11 different quantifiers. We analyze the features of generics sentences in the dataset, with interesting insights: generics can be long sentences (averaging over 16 words) and speakers often use them to express generalisations about people. MGen is the biggest and most diverse dataset of naturally occurring generic sentences, opening the door to large-scale computational research on genericity. It is publicly available at https://gustavocilleruelo.com/mgen
- Abstract(参考訳): MGenは、様々なテキストソースから抽出された400万以上の自然発生文と定量化文のデータセットである。
データセットの文には、ウェブサイトや学術論文に対応する長いコンテキスト文書があり、11の異なる量化器をカバーする。
ジェネリックスは長い文(16語以上)であり、話者はしばしば人に関する一般化を表現するためにそれらを使用する。
MGenは自然発生の汎用文の最大かつ最も多様なデータセットであり、汎用性に関する大規模計算研究の扉を開く。
https://gustavocilleruelo.com/mgenで公開されている。
関連論文リスト
- AmalREC: A Dataset for Relation Extraction and Classification Leveraging Amalgamation of Large Language Models [0.7381551917607596]
この研究は、(i)関係から文を生成する方法、(ii)関係を比較・ランク付けする方法、(iii)個々の方法の強みを組み合わせて、文のさらにベットな品質を生成する方法、(iv)最終的なデータセットを評価する方法、といった主な疑問に焦点を当てた。
論文 参考訳(メタデータ) (2024-12-29T10:36:33Z) - Generics are puzzling. Can language models find the missing piece? [70.14604603488178]
本稿では,言語モデルとして言語モデルを活用することで,ジェネリクスの暗黙的定量化と文脈感度について検討する。
ConGenは2873の自然発生文と、文脈における定量化文のデータセットです。
実験の結果, ジェネリックは決定器の量化器よりも文脈に敏感であり, 自然発生ジェネリックの約20%は弱い一般化を表現していることがわかった。
論文 参考訳(メタデータ) (2024-12-15T21:30:21Z) - PersonalSum: A User-Subjective Guided Personalized Summarization Dataset for Large Language Models [3.516029765200171]
我々はPersonalSumと呼ばれる高品質でパーソナライズされた手作業による要約データセットを提案する。
このデータセットは、公開読者の焦点が、大規模言語モデルによって生成された一般的な要約と異なるかどうかを調査する最初のものである。
論文 参考訳(メタデータ) (2024-10-04T20:12:39Z) - Compositional Generalization for Data-to-Text Generation [86.79706513098104]
本稿では,群に述語をクラスタ化することで構成一般化に対処する新しいモデルを提案する。
本モデルでは,1つの述語を1度に1つのクラスタに依存して文単位でテキストを生成する。
すべての評価指標でT5ベースラインをはるかに上回る。
論文 参考訳(メタデータ) (2023-12-05T13:23:15Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - GenericsKB: A Knowledge Base of Generic Statements [18.68800894936855]
我々はNLPコミュニティのための新しいリソース、すなわち*ジェネリックステートメントの大きな(3.5M+文)知識ベースを提示する*。
これは、抽出またはクラウドソースされた三つ組とは対照的に、*自然に発生する*ジェネリック文を含む最初の大きなリソースである。
すべてのジェネリックKB文は、その話題用語、周囲の文脈(文)、そして(学習された)信頼によって注釈付けされる。
論文 参考訳(メタデータ) (2020-05-02T00:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。