論文の概要: DeformAr: Rethinking NER Evaluation through Component Analysis and Visual Analytics
- arxiv url: http://arxiv.org/abs/2512.00938v1
- Date: Sun, 30 Nov 2025 15:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.507872
- Title: DeformAr: Rethinking NER Evaluation through Component Analysis and Visual Analytics
- Title(参考訳): DeformAr: コンポーネント分析とビジュアル分析によるNER評価の再考
- Authors: Ahmed Mustafa Younes,
- Abstract要約: 本稿では,アラビア語と英語のNERシステム間の性能差を調査・説明するためのフレームワークであるDeformArを紹介する。
DeformArはアラビア語固有の最初のコンポーネントベースの解釈ツールであり、アンダーリソース言語でモデル解析を進める上で重要なリソースを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have significantly advanced Natural Language Processing (NLP), demonstrating strong performance in English. However, their effectiveness in Arabic, particularly for Named Entity Recognition (NER), remains limited, even with larger pre-trained models. This performance gap stems from multiple factors, including tokenisation, dataset quality, and annotation inconsistencies. Existing studies often analyze these issues in isolation, failing to capture their joint effect on system behaviour and performance. We introduce DeformAr (Debugging and Evaluation Framework for Transformer-based NER Systems), a novel framework designed to investigate and explain the performance discrepancy between Arabic and English NER systems. DeformAr integrates a data extraction library and an interactive dashboard, supporting two modes of evaluation: cross-component analysis and behavioural analysis. The framework divides each language into dataset and model components to examine their interactions. The analysis proceeds in two stages. First, cross-component analysis provides systematic diagnostic measures across data and model subcomponents, addressing the "what," "how," and "why" behind observed discrepancies. The second stage applies behavioural analysis by combining interpretability techniques with token-level metrics, interactive visualisations, and representation space analysis. These stages enable a component-aware diagnostic process that detects model behaviours and explains them by linking them to underlying representational patterns and data factors. DeformAr is the first Arabic-specific, component-based interpretability tool, offering a crucial resource for advancing model analysis in under-resourced languages.
- Abstract(参考訳): トランスフォーマーモデルは、かなり進歩した自然言語処理(NLP)を備えており、英語での強い性能を示している。
しかしながら、アラビア語におけるそれらの効果、特に名前付きエンティティ認識(NER)は、より大きな事前学習モデルであっても限定的であり続けている。
このパフォーマンスギャップは、トークン化、データセットの品質、アノテーションの不整合など、さまざまな要因に起因しています。
既存の研究はしばしば、これらの問題を分離して分析し、システムの振る舞いとパフォーマンスに対する共同的な影響を捉えなかった。
DeformAr (Debugging and Evaluation Framework for Transformer-based NER Systems) はアラビア語と英語のパフォーマンスの相違を調査・説明するための新しいフレームワークである。
DeformArはデータ抽出ライブラリとインタラクティブダッシュボードを統合し、クロスコンポーネント分析と振る舞い分析という2つの評価モードをサポートする。
このフレームワークは各言語をデータセットとモデルコンポーネントに分割し、相互作用を調べる。
分析は2段階に分けて行われる。
まず、クロスコンポーネント分析は、データとモデルサブコンポーネントをまたいだ体系的な診断手段を提供し、観察された不一致の背後にある「何」「どのように」「なぜ」に対処する。
第2段階では、解釈可能性技術とトークンレベルのメトリクス、インタラクティブな可視化、表現空間分析を組み合わせることで、振る舞い分析を適用する。
これらの段階は、モデル行動を検出し、それらを基礎となる表現パターンやデータ要素にリンクすることで、コンポーネントが認識する診断プロセスを可能にする。
DeformArはアラビア語固有の最初のコンポーネントベースの解釈ツールであり、アンダーリソース言語でモデル解析を進める上で重要なリソースを提供する。
関連論文リスト
- VIDEE: Visual and Interactive Decomposition, Execution, and Evaluation of Text Analytics with Intelligent Agents [39.42078665719841]
VIDEEは、インテリジェントエージェントによる高度なテキスト分析を行うための、エントリーレベルのデータアナリストをサポートするシステムである。
VIDEEの有効性を評価するための2つの定量的実験を行い、一般的なエージェントエラーを分析した。
論文 参考訳(メタデータ) (2025-06-17T05:24:58Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。