論文の概要: A Diagnostic Benchmark for Sweden-Related Factual Knowledge
- arxiv url: http://arxiv.org/abs/2510.21360v1
- Date: Fri, 24 Oct 2025 11:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.452597
- Title: A Diagnostic Benchmark for Sweden-Related Factual Knowledge
- Title(参考訳): スウェーデン関連ファクチュアル知識の診断基準
- Authors: Jenny Kunz,
- Abstract要約: データセットは、さまざまなサイズとスウェーデンのカバレッジの度合いのモデル間で、事実的リコールを測定するために使用することができる。
このデータセットを用いることで,スウェーデン語に関する事実を想起する上で,スウェーデン語がより強い範囲の小さなモデルの方が3倍大きな多言語モデルと相容れないことが判明した。
- 参考スコア(独自算出の注目度): 0.6599344783327054
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many Swedish benchmarks are translated US-centric benchmarks, and therefore not suitable for testing knowledge that is particularly relevant, or even specific, to Sweden. We therefore introduce a manually written question-answering benchmark specifically targeted to Sweden-related personalities and events, many of which receive very limited coverage in international media. Our annotators drew inspiration from a popular radio program featuring public figures from culture and media, as well as major sports events in Sweden. The dataset can be used to measure factual recall across models of varying sizes and degrees of Swedish coverage, and allows to probe cross-lingual factual consistency as to contains English translations. Using the dataset, we find that smaller models with stronger Swedish coverage perform comparably to a three times larger multilingual model in recalling Sweden-related facts. We also observe that continued pre-training on Swedish generally improves factual knowledge but also leads to forgetting of a part of the previously known information. These results demonstrate the dataset's potential as a diagnostic tool for studying language adaptation and knowledge retention in multilingual models and during language adaptation.
- Abstract(参考訳): 多くのスウェーデンのベンチマークは米国中心のベンチマークに翻訳されているため、特に関係のある、あるいは特定の知識をテストするには適していない。
そこで我々は,スウェーデン関連の個人性や出来事を対象とする,手書きの質問回答ベンチマークを導入する。
私たちのアノテーターは、文化やメディア、スウェーデンの主要なスポーツイベントなど、人気のあるラジオ番組からインスピレーションを得ました。
このデータセットは、さまざまなサイズとスウェーデンのカバレッジのモデル間での事実的リコールを測定するために使用することができ、英語の翻訳を含むような言語間の事実的一貫性を探索することができる。
このデータセットを用いることで,スウェーデン語に関する事実を想起する上で,スウェーデン語がより強い範囲の小さなモデルの方が3倍大きな多言語モデルと相容れないことが判明した。
また,スウェーデンにおける事前学習の継続は,事実知識を向上させるだけでなく,既知情報の一部を忘れてしまうことも観察した。
これらの結果は、多言語モデルおよび言語適応中における言語適応と知識保持を研究するための診断ツールとしてのデータセットの可能性を示す。
関連論文リスト
- Swedish Whispers; Leveraging a Massive Speech Corpus for Swedish Speech Recognition [1.1417805445492082]
スウェーデンのWhisperモデルは、このミッドリソース言語に対して前例のない大きさと可変性のデータセットに基づいてトレーニングされている。
スウェーデンで評価されたOpenAIのWhisperと比較して,モデルサイズ全体の改善が報告されている。
論文 参考訳(メタデータ) (2025-05-23T06:42:16Z) - Tracing Multilingual Factual Knowledge Acquisition in Pretraining [83.93508231653091]
大規模言語モデル(LLM)は、事前学習データに存在する多言語事実知識をリコールすることができる。
我々は,OLMo-7Bに焦点をあてて,事前学習中に現実のリコールと言語間の整合性がどのように進化するかを辿った。
ほとんどの言語では、正確性と一貫性が時間の経過とともに向上していることが分かりました。
論文 参考訳(メタデータ) (2025-05-20T18:39:56Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Evaluating Large Language Models with Human Feedback: Establishing a Swedish Benchmark [0.0]
大規模言語モデル(LLM)は、多数のアプリケーションにまたがる重要な機能を示している。
本研究では,スウェーデン語テキストの理解と生成におけるLLMの有効性を評価するための総合的人間ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-22T21:22:51Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - ScandEval: A Benchmark for Scandinavian Natural Language Processing [0.0]
本稿では,スカンジナビア語における4つのタスクに対して事前学習したモデルをベンチマークする,スカンジナビアのベンチマークプラットフォームであるScandEvalを紹介する。
言語的受容性と質問応答という2つのタスクで使用されるデータセットは新しいものだ。
我々は,Hugging Face Hubにアップロードされたモデルを,再現可能な結果でベンチマークすることができるPythonパッケージとコマンドラインインターフェースであるScandevalを開発し,リリースする。
論文 参考訳(メタデータ) (2023-04-03T11:51:46Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Playing with Words at the National Library of Sweden -- Making a Swedish
BERT [0.0]
本稿では,スウェーデン国立図書館(KB)のデータ駆動研究のためにKBLabが開発したスウェーデンのBERT(KB-BERT)を紹介する。
スウェーデン語以外の言語のためのトランスフォーマーベースのBERTモデルを作成するための最近の取り組みに基づいて、KBのコレクションを使用して、スウェーデン語向けの新しい言語固有のBERTモデルを作成およびトレーニングする方法を説明します。
論文 参考訳(メタデータ) (2020-07-03T12:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。