論文の概要: Beyond Word Boundaries: A Hebrew Coreference Benchmark and an Evaluation Protocol for Morphologically Complex Text
- arxiv url: http://arxiv.org/abs/2604.17108v1
- Date: Sat, 18 Apr 2026 18:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.335932
- Title: Beyond Word Boundaries: A Hebrew Coreference Benchmark and an Evaluation Protocol for Morphologically Complex Text
- Title(参考訳): 単語境界を超える: ヘブライ語照合ベンチマークと形態学的に複雑なテキストの評価プロトコル
- Authors: Refael Shaked Greenfeld, Reut Tsarfaty,
- Abstract要約: Em KibutzRは、現代ヘブライ語のための最初の包括的CRデータセットであり、複雑な単語とプロノミナル・クリケットに富んだMRLである。
実験の結果,現代LLMは英語よりもヘブライ語の方が格段に優れており,原文では性能が劣化していることがわかった。
我々は,ヘブライ語コア参照解決のための新しいベンチマークとセグメンテーション対応評価プロトコルを提供し,他のMRLの今後の研究について報告する。
- 参考スコア(独自算出の注目度): 19.457753319855144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coreference Resolution (CR) is a fundamental NLP task critical for long-form tasks as information extraction, summarization, and many business applications. However, CR methods originally designed for English struggle with Morphologically Rich Languages (MRLs), where mention boundaries do not necessarily align with word boundaries, and a single token may consist of multiple anaphors. CR modeling and evaluation protocols standardly assume that, as in English, words and mentions mostly align. However, this assumption breaks down in MRLs, particularly in the context of LLMs' raw-text processing and end-to-end tasks. To assess and address this challenge, we introduce {\em KibutzR}, the first comprehensive CR dataset for Modern Hebrew, an MRL rich with complex words and pronominal clitics. We deliver an annotated dataset that identifies mentions at word, sub-word and multi-word levels, and propose an evaluation protocol that directly addresses word/morpheme boundary discrepancies. Our experiments show that contemporary LLMs perform significantly worse on Hebrew than on English, and that performance degrades on raw unsegmented text. Crucially, we show an inverse performance-trend in Hebrew relative to English, where smaller encoders perform far better than contemporary decoder models, leaving ample space for investigation and improvement. We deliver a new benchmark for Hebrew coreference resolution and a segmentation-aware evaluation protocol to inform future work on other MRLs.
- Abstract(参考訳): Coreference Resolution (CR)は、情報抽出、要約、および多くのビジネスアプリケーションとして、ロングフォームタスクに不可欠な基本的なNLPタスクである。
しかし、CR法はもともと英語でMorphologically Rich Languages (MRL) と戦うために設計されたもので、言及境界は必ずしも単語境界と一致しない。
CRモデリングおよび評価プロトコルは、英語のように、単語と言及が概ね一致していると標準的に仮定する。
しかし、この仮定はMRL、特にLLMの生のテキスト処理とエンドツーエンドタスクの文脈で分解される。
この課題を評価し、対処するために、複雑な単語とプロノミナル・クリミティクスに富んだMRLであるModern Hebrewの最初の包括的CRデータセットである {\em KibutzR} を紹介した。
単語,サブワード,マルチワードレベルの参照を識別する注釈付きデータセットを提供し,単語/形態境界の相違に直接対処する評価プロトコルを提案する。
実験の結果,現代LLMは英語よりもヘブライ語の方が格段に優れており,原文では性能が劣化していることがわかった。
重要なことに、英語と比較してヘブライ語では逆パフォーマンストレンドがあり、小さなエンコーダは現代のデコーダモデルよりもはるかに優れた性能を示し、調査と改善のための十分なスペースを残している。
我々は,ヘブライ語コア参照解決のための新しいベンチマークとセグメンテーション対応評価プロトコルを提供し,他のMRLの今後の研究について報告する。
関連論文リスト
- AgenticTagger: Structured Item Representation for Recommendation with LLM Agents [58.12004213978182]
AgenticTagger は LLM をクエリして,項目をテキスト記述子のシーケンスで表現するフレームワークである。
アイテムコーパス内の語彙を効果的かつ効率的に基底化するために,多エージェント反射機構を設計する。
公開データとプライベートデータの実験では、AgenticTaggerがさまざまなレコメンデーションシナリオに一貫した改善をもたらしている。
論文 参考訳(メタデータ) (2026-02-05T18:01:37Z) - Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR [4.917745659609699]
単語レベルOCRから行レベルOCRへの自然な進化を提案する。
提案手法はOCRの精度だけでなく効率も向上することを示す。
実験の結果, エンドツーエンドの精度は5.4%向上した。
論文 参考訳(メタデータ) (2025-08-29T15:02:11Z) - HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。
ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。
我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文 参考訳(メタデータ) (2025-08-03T15:53:01Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - Multilingual Sequence-to-Sequence Models for Hebrew NLP [16.010560946005473]
シーケンス・ツー・シーケンス生成アーキテクチャはヘブライ語のような形態的にリッチな言語(MRL)により適していることを示す。
我々は,ヘブライ語NLPパイプラインのタスクをテキスト・テキスト・タスクとしてキャストすることで,マルチリンガルで事前訓練されたシーケンス・ツー・シーケンスモデルをmT5として活用できることを実証した。
論文 参考訳(メタデータ) (2022-12-19T18:10:23Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。