論文の概要: The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2604.00019v1
- Date: Wed, 11 Mar 2026 01:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.197622
- Title: The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation
- Title(参考訳): RiDiCの年代記:長めのファクチュアリティ評価のための人気分布制御によるデータセットの生成
- Authors: Pavel Braslavski, Dmitrii Iarosh, Nikita Sushko, Andrey Sakhovskiy, Vasily Konovalov, Elena Tutubalina, Alexander Panchenko,
- Abstract要約: RiDiCデータセットには、さまざまな人気層にまたがる3つのドメイン(川、自然災害、自動車モデル)から3,000のエンティティが含まれている。
各エンティティには、地理的な場所、英語と中国語の名前、関連する英語と中国語のウィキペディアコンテンツが付属している。
そして、これらをサードパーティのファクトリティーチェッカーを用いて評価し、データセットのエンティティがフロンティアモデルでさえ幻覚を引き起こすことを示した。
- 参考スコア(独自算出の注目度): 56.22548620937169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a configurable pipeline for generating multilingual sets of entities with specified characteristics, such as domain, geographical location and popularity, using data from Wikipedia and Wikidata. These datasets are intended for evaluating the factuality of LLMs' long-form generation, thereby complementing evaluation based on short-form QA datasets. We present the RiDiC dataset as an example of this approach. RiDiC contains 3,000 entities from three domains -- rivers, natural disasters, and car models -- spanning different popularity tiers. Each entity is accompanied by its geographical location, English and Chinese names (if available) and relevant English and Chinese Wikipedia content, which is used to evaluate LLMs' responses. Generations about RiDiC entities were obtained from three LLMs in English and Chinese. These were then evaluated using a third-party factuality checker, which showed that entities from our dataset caused even frontier models to hallucinate. To facilitate the evaluation of LLMs' long-form factuality in multiple languages, the code, data, and generation/evaluation scripts have been released.
- Abstract(参考訳): ウィキペディアやウィキデータから得られたデータを用いて,ドメイン,地理的な位置,人気など,特定の特徴を持つエンティティの多言語集合を生成するための構成可能なパイプラインを提案する。
これらのデータセットは、LLMの長文生成の事実性を評価することを目的としており、短文QAデータセットに基づく評価を補完する。
このアプローチの例として、RiDiCデータセットを挙げる。
RiDiCには3つのドメイン(川、自然災害、自動車モデル)から3000のエンティティが含まれており、さまざまな人気層にまたがっている。
各エンティティには、地理的な場所、英語と中国語の名前(利用可能であれば)、関連する英語と中国語のウィキペディアコンテンツが付属しており、LLMの応答を評価するのに使用される。
英語と中国語の3つのLLMから、RiDiCエンティティに関する世代が得られた。
そして、これらをサードパーティのファクトリティーチェッカーを用いて評価し、データセットのエンティティがフロンティアモデルでさえ幻覚を引き起こすことを示した。
複数の言語におけるLLMの長期的事実性の評価を容易にするため、コード、データ、生成/評価スクリプトがリリースされた。
関連論文リスト
- HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。
30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。
57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2025-11-02T20:16:38Z) - Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - A Comprehensive Survey on Long Context Language Modeling [118.5540791080351]
Long Context Language Models (LCLM) は、広範囲な入力を効果的かつ効率的に処理し、分析する。
本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
論文 参考訳(メタデータ) (2025-03-20T17:06:28Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Building Multilingual Corpora for a Complex Named Entity Recognition and
Classification Hierarchy using Wikipedia and DBpedia [0.0]
多言語および階層型並列コーパスであるUNERデータセットについて述べる。
我々は,このタイプのデータセットを,DBpedia情報を備えたウィキペディアで利用可能なあらゆる言語で作成するために必要な開発手順について詳述する。
論文 参考訳(メタデータ) (2022-12-14T11:38:48Z) - STORIUM: A Dataset and Evaluation Platform for Machine-in-the-Loop Story
Generation [48.56586847883825]
我々は、オンラインのコラボレーティブなストーリーテリングコミュニティであるSTORiumから構築されたデータセットと評価プラットフォームを紹介した。
データセットには6Kの長編記事と、各物語に散在する詳細な自然言語アノテーションが含まれています。
我々は、STORiumにそれらを統合することで、データセット上で微調整された言語モデルを評価し、実際の著者は提案されたストーリーの継続をモデルに問い合わせ、編集することができる。
論文 参考訳(メタデータ) (2020-10-04T23:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。