論文の概要: Mahānāma: A Unique Testbed for Literary Entity Discovery and Linking
- arxiv url: http://arxiv.org/abs/2509.19844v1
- Date: Wed, 24 Sep 2025 07:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.722726
- Title: Mahānāma: A Unique Testbed for Literary Entity Discovery and Linking
- Title(参考訳): Mahānāma: バイナリエンティティの発見とリンクのためのユニークなテストベッド
- Authors: Sujoy Sarkar, Gourav Sarkar, Manoj Balaji Jagadeeshan, Jivnesh Sandhan, Amrith Krishna, Pawan Goyal,
- Abstract要約: Mah=an=amaは、サンスクリットでエンドツーエンドのエンティティディスカバリとリンクのための最初の大規模データセットである。
データセットは、5.5Kのユニークなエンティティにマッピングされた109K以上の名前付きエンティティを含む。
Mah=an=amaの複雑な物語構造は、広範囲な名前のバリエーションや曖昧さと相まって、解決システムに重大な課題をもたらす。
- 参考スコア(独自算出の注目度): 5.247057581790816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High lexical variation, ambiguous references, and long-range dependencies make entity resolution in literary texts particularly challenging. We present Mah\={a}n\={a}ma, the first large-scale dataset for end-to-end Entity Discovery and Linking (EDL) in Sanskrit, a morphologically rich and under-resourced language. Derived from the Mah\={a}bh\={a}rata, the world's longest epic, the dataset comprises over 109K named entity mentions mapped to 5.5K unique entities, and is aligned with an English knowledge base to support cross-lingual linking. The complex narrative structure of Mah\={a}n\={a}ma, coupled with extensive name variation and ambiguity, poses significant challenges to resolution systems. Our evaluation reveals that current coreference and entity linking models struggle when evaluated on the global context of the test set. These results highlight the limitations of current approaches in resolving entities within such complex discourse. Mah\=an\=ama thus provides a unique benchmark for advancing entity resolution, especially in literary domains.
- Abstract(参考訳): 高い語彙変化、曖昧な参照、および長距離依存は、文学テキストにおけるエンティティの解決を特に困難にしている。
Mah\={a}n\={a}ma はサンスクリットでエンドツーエンドのEntity Discovery and Linking (EDL) のための最初の大規模データセットである。
Mah\={a}bh\={a}rata(世界最長の叙事詩)から派生したこのデータセットは、5.5Kのユニークなエンティティにマッピングされた109K以上の名前のエンティティからなり、言語間リンクをサポートするための英語の知識ベースと整列している。
Mah\={a}n\={a}maの複雑な物語構造は、広範囲な名前のバリエーションや曖昧さと相まって、解決システムに重大な課題をもたらす。
評価の結果,テストセットのグローバルな文脈で評価すると,現在のコア参照とエンティティリンクモデルが苦戦していることが明らかとなった。
これらの結果は、そのような複雑な言論の中でのエンティティの解決における現在のアプローチの限界を浮き彫りにする。
したがって、Mah\=an\=amaは、特に文学領域において、エンティティ解決を前進させるためのユニークなベンチマークを提供する。
関連論文リスト
- ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension [29.50623143244436]
ReMeRECは、自然言語の記述に基づいて、イメージ内の特定のエンティティやリージョンをローカライズすることを目的としている。
まず、ReMeXと呼ばれる関係認識型マルチエンタリティRECデータセットを構築した。
次に,複数のエンティティのローカライズに視覚的およびテキスト的手がかりを併用した新しいフレームワークReMeRECを提案する。
論文 参考訳(メタデータ) (2025-07-22T11:23:48Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Disambiguate Entity Matching using Large Language Models through Relation Discovery [1.6317061277457001]
本稿では、純粋に意味的な類似点から、エンティティ間の「関係」を理解し定義することへ焦点を移す新しいアプローチを提案する。
本手法では,タスクに関連する一連の関係を事前に定義することにより,類似性のスペクトルをより効率的にナビゲートすることができる。
論文 参考訳(メタデータ) (2024-03-26T03:07:32Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。