論文の概要: HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark
- arxiv url: http://arxiv.org/abs/2508.01812v1
- Date: Sun, 03 Aug 2025 15:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.0729
- Title: HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark
- Title(参考訳): HeQ: 大規模で多彩なヘブライ語読解ベンチマーク
- Authors: Amir DN Cohen, Hilla Merhav, Yoav Goldberg, Reut Tsarfaty,
- Abstract要約: 我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。
ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。
我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
- 参考スコア(独自算出の注目度): 54.73504952691398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for Hebrew Natural Language Processing (NLP) focus mainly on morpho-syntactic tasks, neglecting the semantic dimension of language understanding. To bridge this gap, we set out to deliver a Hebrew Machine Reading Comprehension (MRC) dataset, where MRC is to be realized as extractive Question Answering. The morphologically rich nature of Hebrew poses a challenge to this endeavor: the indeterminacy and non-transparency of span boundaries in morphologically complex forms lead to annotation inconsistencies, disagreements, and flaws in standard evaluation metrics. To remedy this, we devise a novel set of guidelines, a controlled crowdsourcing protocol, and revised evaluation metrics that are suitable for the morphologically rich nature of the language. Our resulting benchmark, HeQ (Hebrew QA), features 30,147 diverse question-answer pairs derived from both Hebrew Wikipedia articles and Israeli tech news. Our empirical investigation reveals that standard evaluation metrics such as F1 scores and Exact Match (EM) are not appropriate for Hebrew (and other MRLs), and we propose a relevant enhancement. In addition, our experiments show low correlation between models' performance on morpho-syntactic tasks and on MRC, which suggests that models designed for the former might underperform on semantics-heavy tasks. The development and exploration of HeQ illustrate some of the challenges MRLs pose in natural language understanding (NLU), fostering progression towards more and better NLU models for Hebrew and other MRLs.
- Abstract(参考訳): ヘブライ語自然言語処理(NLP)の現在のベンチマークは、言語理解のセマンティックな次元を無視し、主にモルフォ・シンタクティックなタスクに焦点を当てている。
このギャップを埋めるため、我々はHebrew Machine Reading Comprehension (MRC)データセットの提供に着手しました。
形態学的に豊かなヘブライ語の性質は、この試みに挑戦する: 形態学的に複雑な形式のスパン境界の不確定性と非透明性は、標準評価指標における注釈の不整合、矛盾、欠陥をもたらす。
これを改善するために, 言語の形態的に豊かな性質に適合する新しいガイドライン, 制御されたクラウドソーシングプロトコル, 評価指標を考案した。
その結果得られたベンチマークであるHeQ (Hebrew QA)は、ヘブライ語ウィキペディアの記事とイスラエルのテックニュースの両方から得られた30,147種類の質問回答ペアを特徴としている。
F1スコアやエクサクトマッチ(EM)などの標準評価指標はヘブライ語(および他のMRL)には適さないことが実証研究で明らかとなり、関連する拡張を提案する。
さらに,本実験では,モルフォ・シンタクティック・タスクとMDCのモデル性能の相関が低く,前者のために設計されたモデルでは意味論的・重大なタスクが不足する可能性が示唆された。
HeQの開発と探索は、MRLが自然言語理解(NLU)においてもたらす課題をいくつか示しており、ヘブライ語や他のMRLのより優れたNLUモデルへの進歩を促進している。
関連論文リスト
- FUSE : A Ridge and Random Forest-Based Metric for Evaluating MT in Indigenous Languages [2.377892000761193]
本稿では,RaaVaチームのAmerices 2025 Shared Task 3における自動機械翻訳のための評価基準の獲得について述べる。
評価のためのFUSE (Feature-Union Scorer) を導入し,FUSEはリッジ回帰とグラディエントブースティングを統合して翻訳品質をモデル化する。
その結果,FUSE はPearson と Spearman の相関関係を人間の判断と連続的に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T06:58:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - A Truly Joint Neural Architecture for Segmentation and Parsing [15.866519123942457]
形態的リッチ言語(MRL)の性能は他の言語よりも低い。
空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。
本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-04T16:56:08Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Multilingual Sequence-to-Sequence Models for Hebrew NLP [16.010560946005473]
シーケンス・ツー・シーケンス生成アーキテクチャはヘブライ語のような形態的にリッチな言語(MRL)により適していることを示す。
我々は,ヘブライ語NLPパイプラインのタスクをテキスト・テキスト・タスクとしてキャストすることで,マルチリンガルで事前訓練されたシーケンス・ツー・シーケンスモデルをmT5として活用できることを実証した。
論文 参考訳(メタデータ) (2022-12-19T18:10:23Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - An Investigation of Language Model Interpretability via Sentence Editing [5.492504126672887]
我々は、事前学習言語モデル(PLM)の解釈可能性をテストするテストベッドとして、文編集データセットを再使用した。
これにより、PLMの解釈可能性に関する一連の質問に対して、系統的な調査を行うことができる。
この調査は、例えば、一般的な理解とは対照的に、注意重みが人間の合理性とよく相関しているという新たな洞察を生み出す。
論文 参考訳(メタデータ) (2020-11-28T00:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。