論文の概要: Mahānāma: A Unique Testbed for Literary Entity Discovery and Linking
- arxiv url: http://arxiv.org/abs/2509.19844v1
- Date: Wed, 24 Sep 2025 07:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.722726
- Title: Mahānāma: A Unique Testbed for Literary Entity Discovery and Linking
- Title(参考訳): Mahānāma: バイナリエンティティの発見とリンクのためのユニークなテストベッド
- Authors: Sujoy Sarkar, Gourav Sarkar, Manoj Balaji Jagadeeshan, Jivnesh Sandhan, Amrith Krishna, Pawan Goyal,
- Abstract要約: Mah=an=amaは、サンスクリットでエンドツーエンドのエンティティディスカバリとリンクのための最初の大規模データセットである。
データセットは、5.5Kのユニークなエンティティにマッピングされた109K以上の名前付きエンティティを含む。
Mah=an=amaの複雑な物語構造は、広範囲な名前のバリエーションや曖昧さと相まって、解決システムに重大な課題をもたらす。
- 参考スコア(独自算出の注目度): 5.247057581790816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High lexical variation, ambiguous references, and long-range dependencies make entity resolution in literary texts particularly challenging. We present Mah\={a}n\={a}ma, the first large-scale dataset for end-to-end Entity Discovery and Linking (EDL) in Sanskrit, a morphologically rich and under-resourced language. Derived from the Mah\={a}bh\={a}rata, the world's longest epic, the dataset comprises over 109K named entity mentions mapped to 5.5K unique entities, and is aligned with an English knowledge base to support cross-lingual linking. The complex narrative structure of Mah\={a}n\={a}ma, coupled with extensive name variation and ambiguity, poses significant challenges to resolution systems. Our evaluation reveals that current coreference and entity linking models struggle when evaluated on the global context of the test set. These results highlight the limitations of current approaches in resolving entities within such complex discourse. Mah\=an\=ama thus provides a unique benchmark for advancing entity resolution, especially in literary domains.
- Abstract(参考訳): 高い語彙変化、曖昧な参照、および長距離依存は、文学テキストにおけるエンティティの解決を特に困難にしている。
Mah\={a}n\={a}ma はサンスクリットでエンドツーエンドのEntity Discovery and Linking (EDL) のための最初の大規模データセットである。
Mah\={a}bh\={a}rata(世界最長の叙事詩)から派生したこのデータセットは、5.5Kのユニークなエンティティにマッピングされた109K以上の名前のエンティティからなり、言語間リンクをサポートするための英語の知識ベースと整列している。
Mah\={a}n\={a}maの複雑な物語構造は、広範囲な名前のバリエーションや曖昧さと相まって、解決システムに重大な課題をもたらす。
評価の結果,テストセットのグローバルな文脈で評価すると,現在のコア参照とエンティティリンクモデルが苦戦していることが明らかとなった。
これらの結果は、そのような複雑な言論の中でのエンティティの解決における現在のアプローチの限界を浮き彫りにする。
したがって、Mah\=an\=amaは、特に文学領域において、エンティティ解決を前進させるためのユニークなベンチマークを提供する。
関連論文リスト
- CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning [48.56088080889236]
我々は、新しいデータ合成フレームワークによって生成された1000万のトークンをスケーリングする新しいベンチマークであるCorpusQAを紹介した。
合成データの微調整はLLMの一般的な長文推論能力を効果的に向上させることを示す。
メモリ拡張型エージェントアーキテクチャは,より堅牢な代替手段であることを示す。
論文 参考訳(メタデータ) (2026-01-21T12:52:30Z) - Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset [26.899919193282944]
Mitrasamgrahaは、391,548ビットの組からなる高品質なサンスクリットから英語への機械翻訳データセットである。
3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。
我々は、このデータセット上で商用およびオープンなモデルをベンチマークし、データセット上でNLLBおよびGemmaモデルを微調整する実験を行う。
論文 参考訳(メタデータ) (2026-01-12T08:37:15Z) - LittiChoQA: Literary Texts in Indic Languages Chosen for Question Answering [33.849676909667]
インドのガンジケート平野で話されている多くの言語を網羅する,これまでで最大の文学的QAデータセットであるLittiChoQAを紹介した。
データセットは、ファクトイドと非ファクトイドの問合せのバランスのとれた270K以上の問合せペアで構成されている。
論文 参考訳(メタデータ) (2026-01-06T13:59:41Z) - Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset [8.437906092903582]
ルクセンブルク語で名前付きエンティティ認識(NER)のためのデータセットである judgeWEL を,大規模言語モデル(LLM)を用いて自動的にラベル付けし,検証する。
ウィキペディアの記事の内部リンクを利用して、対応するウィキデータエントリに基づいてエンティティタイプを推論する。
このようなリンクは均一に信頼性がないため、高品質なラベル付き文のみを識別・保持するために複数のLLMを使用・比較することによりノイズを軽減する。
論文 参考訳(メタデータ) (2026-01-01T17:53:38Z) - ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension [29.50623143244436]
ReMeRECは、自然言語の記述に基づいて、イメージ内の特定のエンティティやリージョンをローカライズすることを目的としている。
まず、ReMeXと呼ばれる関係認識型マルチエンタリティRECデータセットを構築した。
次に,複数のエンティティのローカライズに視覚的およびテキスト的手がかりを併用した新しいフレームワークReMeRECを提案する。
論文 参考訳(メタデータ) (2025-07-22T11:23:48Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Disambiguate Entity Matching using Large Language Models through Relation Discovery [1.6317061277457001]
本稿では、純粋に意味的な類似点から、エンティティ間の「関係」を理解し定義することへ焦点を移す新しいアプローチを提案する。
本手法では,タスクに関連する一連の関係を事前に定義することにより,類似性のスペクトルをより効率的にナビゲートすることができる。
論文 参考訳(メタデータ) (2024-03-26T03:07:32Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。