論文の概要: What Matters When Building Universal Multilingual Named Entity Recognition Models?
- arxiv url: http://arxiv.org/abs/2601.06347v1
- Date: Fri, 09 Jan 2026 23:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.762509
- Title: What Matters When Building Universal Multilingual Named Entity Recognition Models?
- Title(参考訳): ユニバーサル多言語名前付きエンティティ認識モデルを構築する上で何が重要か?
- Authors: Jonas Golde, Patrick Haller, Alan Akbik,
- Abstract要約: Otterは100以上の言語をサポートする汎用多言語NERモデルである。
Otterは強力な多言語NERベースラインよりも一貫した改善を実現し、GLiNER-xベースを5.3ppのF1で上回っている。
モデルチェックポイント、トレーニング、評価コードをリリースし、今後の研究を円滑に進めます。
- 参考スコア(独自算出の注目度): 12.125413756152833
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent progress in universal multilingual named entity recognition (NER) has been driven by advances in multilingual transformer models and task-specific architectures, loss functions, and training datasets. Despite substantial prior work, we find that many critical design decisions for such models are made without systematic justification, with architectural components, training objectives, and data sources evaluated only in combination rather than in isolation. We argue that these decisions impede progress in the field by making it difficult to identify which choices improve model performance. In this work, we conduct extensive experiments around architectures, transformer backbones, training objectives, and data composition across a wide range of languages. Based on these insights, we introduce Otter, a universal multilingual NER model supporting over 100 languages. Otter achieves consistent improvements over strong multilingual NER baselines, outperforming GLiNER-x-base by 5.3pp in F1 and achieves competitive performance compared to large generative models such as Qwen3-32B, while being substantially more efficient. We release model checkpoints, training and evaluation code to facilitate reproducibility and future research.
- Abstract(参考訳): NER(Universal Multilingual Name entity Recognition)の最近の進歩は、多言語トランスフォーマーモデルやタスク固有のアーキテクチャ、損失関数、データセットのトレーニングの進歩によって推進されている。
多くの重要な設計上の決定は、アーキテクチャコンポーネント、トレーニング目的、データソースを単独でではなく組み合わせて評価することで、体系的な正当化なしに行われます。
これらの決定は、どの選択がモデルの性能を向上させるかを特定するのが難しく、この分野の進歩を妨げると我々は主張する。
本研究では, アーキテクチャ, トランスフォーマーバックボーン, トレーニング目標, および多言語にわたるデータ構成に関する広範な実験を行う。
これらの知見に基づき,100以上の言語をサポートする汎用多言語NERモデルであるOtterを紹介する。
Otterは強力な多言語NERベースラインよりも一貫した改善を実現し、GLiNER-xベースをF1で5.3pp上回った。
再現性と今後の研究を容易にするために,モデルチェックポイント,トレーニング,評価コードをリリースする。
関連論文リスト
- The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。