論文の概要: TailNLG: A Multilingual Benchmark Addressing Verbalization of Long-Tail Entities
- arxiv url: http://arxiv.org/abs/2603.27768v1
- Date: Sun, 29 Mar 2026 17:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.108034
- Title: TailNLG: A Multilingual Benchmark Addressing Verbalization of Long-Tail Entities
- Title(参考訳): TailNLG: ロングテールエンティティの言語化に対処する多言語ベンチマーク
- Authors: Lia Draetta, Michael Oliverio, Virginia Ramón-Ferrer, Pier Felice Balestrucci, Flaviana Corallo, Carlos Badenes-Olmedo, Alessandro Mazzei, Marco Antonio Stranisci, Rossana Damiano,
- Abstract要約: データ・テキスト・ジェネレーションにおけるロングテール・エンティティの最初の体系的研究について述べる。
Wikidataから構築された、英語、イタリア語、スペイン語の新しい多言語ベンチマークであるTailNLGを紹介します。
モデルや言語によって長い範囲のエンティティの影響が異なり、既存の評価指標がこれらの違いを常に捉えていないことを示す。
- 参考スコア(独自算出の注目度): 35.1254326443212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic verbalization of structured knowledge is a key task for making knowledge graphs accessible to non-expert users and supporting retrieval-augmented generation systems. Although recent advances in Data-to-Text generation have improved multilingual coverage, little attention has been paid to potential biases in the verbalization of rare entities, frequently known as long-tail entities. In this work, we present the first systematic study of long-tail entities in Data-to-Text generation. We introduce TailNLG, a new multilingual benchmark in English, Italian, and Spanish, built from Wikidata and covering entities with varying levels of popularity. We evaluate three different families of large language models in zero-shot settings and compare their performance on rare versus common entities, as well as against the established WebNLG benchmark. Our results reveal a consistent bias against long-tail entities: embedding-based scores are lower, and model uncertainty is higher for rare entities. We further show that the impact of long-tail entities varies across models and languages, and that existing evaluation metrics do not consistently capture these differences, highlighting the need for more reliable evaluation frameworks.
- Abstract(参考訳): 構造化知識の自動言語化は、知識グラフを専門家でないユーザにも利用し、検索強化生成システムをサポートするための重要なタスクである。
データ・トゥ・テキスト・ジェネレーションの最近の進歩は多言語カバレッジを改善しているが、レア・エンティティ(ロングテール・エンティティ)の言語化における潜在的なバイアスにはほとんど注意が払われていない。
本研究では,データ・テキスト・ジェネレーションにおける長い尾のエンティティに関する最初の体系的研究について述べる。
私たちは、Wikidataから構築され、さまざまなレベルの人気を持つエンティティをカバーする、英語、イタリア語、スペイン語の新しい多言語ベンチマークであるTailNLGを紹介します。
我々は、ゼロショット設定で3種類の大言語モデルを評価し、その性能を、確立されたWebNLGベンチマークと同様に、希少なエンティティと一般的なエンティティで比較した。
埋め込みベースのスコアは低く、モデルの不確実性は稀なエンティティに対して高い。
さらに、ロングテールエンティティの影響はモデルや言語によって異なり、既存の評価指標がこれらの違いを一貫して捉えていないことを示し、より信頼性の高い評価フレームワークの必要性を強調している。
関連論文リスト
- Test Set Quality in Multilingual LLM Evaluation [2.3249139042158853]
我々は,フランス語とテルグ語における最近の多言語評価セットを分析し,その過程におけるいくつかの誤りを同定した。
テストセットは不変と見なされるべきではなく、再検討され、正確性を確認し、潜在的にバージョン管理されるべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2025-08-04T17:22:08Z) - Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。