論文の概要: CADEL: A Corpus of Administrative Web Documents for Japanese Entity Linking
- arxiv url: http://arxiv.org/abs/2603.29336v1
- Date: Tue, 31 Mar 2026 07:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.242854
- Title: CADEL: A Corpus of Administrative Web Documents for Japanese Entity Linking
- Title(参考訳): CADEL:日本語エンティティリンクのための管理用Webドキュメントコーパス
- Authors: Shohei Higashiyama, Masao Ideuchi, Masao Utiyama,
- Abstract要約: 我々は,エンティティリンクタスクのためのコーパスポリシーを開発し,日本語エンティティリンクシステムのトレーニングと評価のための注釈付きコーパスを構築した。
アノテーション間合意の評価は、コーパス内のアノテーションの高整合性を確認する。
文字列マッチングに基づくエンティティの曖昧さに関する予備実験は、コーパスがかなりの数の非自明なケースを含むことを示唆している。
- 参考スコア(独自算出の注目度): 12.052098027858408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity linking is the task of associating linguistic expressions with entries in a knowledge base that represent real-world entities and concepts. Language resources for this task have primarily been developed for English, and the resources available for evaluating Japanese systems remain limited. In this study, we develop a corpus design policy for the entity linking task and construct an annotated corpus for training and evaluating Japanese entity linking systems, with rich coverage of linguistic expressions referring to entities that are specific to Japan. Evaluation of inter-annotator agreement confirms the high consistency of the annotations in the corpus, and a preliminary experiment on entity disambiguation based on string matching suggests that the corpus contains a substantial number of non-trivial cases, supporting its potential usefulness as an evaluation benchmark.
- Abstract(参考訳): エンティティリンク(Entity Linking)は、言語表現と現実世界の実体や概念を表す知識ベースへのエントリを関連付けるタスクである。
この課題のための言語資源は主に英語で開発されており、日本語システム評価に利用できる資源は限られている。
本研究では,エンティティリンクタスクのためのコーパス設計ポリシーを開発し,日本固有のエンティティを指す言語表現を多用した,日本語エンティティリンクシステムのトレーニングと評価のためのアノテーション付きコーパスを構築する。
アノテーション間のアノテータ合意の評価はコーパス内のアノテーションの高整合性を確認するとともに,文字列マッチングに基づくエンティティの曖昧さに関する予備実験により,コーパスには相当数の非自明なケースが含まれており,評価ベンチマークとしての潜在的有用性を支持することが示唆された。
関連論文リスト
- Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis [0.5545791216381869]
本稿では, エージェント型大規模言語モデル (LLM) を用いて, 注釈付きコーパスの体系的解析を効率化する方法について検討する。
本稿では,自然言語タスク解釈などの概念を統合したコーパスグラウンド文法解析のためのエージェントフレームワークを提案する。
We test the system on multilingual grammatical tasks by the World Atlas of Language Structures (WALS) (英語)
論文 参考訳(メタデータ) (2025-11-28T21:27:58Z) - On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - GiesKaNe: Bridging Past and Present in Grammatical Theory and Practical Application [0.0]
GiesKaNeプロジェクトでは、コーパスコンパイルの要件について検討している。
歴史的コーパスとして、GiesKaNeは歴史的コーパスと現代コーパスの両方との関係を確立することを目的としている。
このようなプロジェクトの方法論的な複雑さは、人間の専門知識と機械支援プロセスの補完的な相互作用を通じて管理される。
論文 参考訳(メタデータ) (2025-02-07T17:35:33Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech [27.657676278734534]
本稿では,子指向音声のこのようなコーパスを,感性論理形式と組み合わせて構築する手法を提案する。
このアプローチは言語間一貫した表現を強制し、依存関係表現とセマンティック解析の最近の進歩に基づいている。
論文 参考訳(メタデータ) (2021-09-22T18:17:06Z) - An Unsupervised Language-Independent Entity Disambiguation Method and
its Evaluation on the English and Persian Languages [3.8498574327875943]
Unsupervised Language-Independent Entity Disambiguation (ULIED)は、名前付きエンティティを曖昧にリンクするための新しいアプローチである。
異なる英語エンティティリンクデータセット上でのULIEDの評価と、利用可能な唯一のペルシアのデータセットは、ほとんどのケースにおいて、ULIEDが最先端の教師なし多言語アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-31T06:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。