Fugu-MT 論文翻訳(概要): KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge

論文の概要: KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge

arxiv url: http://arxiv.org/abs/2402.13605v4
Date: Tue, 19 Mar 2024 04:00:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 23:12:03.465698
Title: KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge
Title（参考訳）: KorNAT:韓国の社会価値と共通知識のためのLLMアライメントベンチマーク
Authors: Jiyoung Lee, Minwoo Kim, Seungho Kim, Junghwan Kim, Seunghyun Won, Hwaran Lee, Edward Choi,
Abstract要約: KorNATは韓国と国家の整合性を測定する最初のベンチマークである。社会価値データセットについて,6,174人の韓国人参加者を対象とした大規模調査から,基礎的真理ラベルを得た。共通知識データセットについて,韓国の教科書とGED参照資料に基づくサンプルを構築した。
参考スコア（独自算出の注目度）: 23.24277210427649
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For Large Language Models (LLMs) to be effectively deployed in a specific country, they must possess an understanding of the nation's culture and basic knowledge. To this end, we introduce National Alignment, which measures an alignment between an LLM and a targeted country from two aspects: social value alignment and common knowledge alignment. Social value alignment evaluates how well the model understands nation-specific social values, while common knowledge alignment examines how well the model captures basic knowledge related to the nation. We constructed KorNAT, the first benchmark that measures national alignment with South Korea. For the social value dataset, we obtained ground truth labels from a large-scale survey involving 6,174 unique Korean participants. For the common knowledge dataset, we constructed samples based on Korean textbooks and GED reference materials. KorNAT contains 4K and 6K multiple-choice questions for social value and common knowledge, respectively. Our dataset creation process is meticulously designed and based on statistical sampling theory and was refined through multiple rounds of human review. The experiment results of seven LLMs reveal that only a few models met our reference score, indicating a potential for further enhancement. KorNAT has received government approval after passing an assessment conducted by a government-affiliated organization dedicated to evaluating dataset quality. Samples and detailed evaluation protocols of our dataset can be found in https://selectstar.ai/ko/papers-national-alignment
Abstract（参考訳）: 大きな言語モデル(LLM)が特定の国に効果的に展開されるためには、その国の文化と基本的な知識を理解する必要がある。この目的のために,社会価値アライメントと共通知識アライメントという2つの側面から,LLMと対象国間のアライメントを測定する全国アライメントを導入する。社会的価値のアライメントは、モデルがいかに国家固有の社会的価値を理解するかを評価する一方、共通の知識のアライメントは、モデルが国家に関連する基本的な知識をいかに捉えるかを調べる。我々は韓国と国家の整合性を測定する最初のベンチマークであるKorNATを構築した。社会価値データセットについて,6,174人の韓国人参加者を対象とした大規模調査から,基礎的真理ラベルを得た。共通知識データセットについて,韓国の教科書とGED参照資料に基づくサンプルを構築した。 KorNATには、それぞれ社会的価値と共通知識に関する4Kと6Kの多重選択質問が含まれている。我々のデータセット作成プロセスは、統計的サンプリング理論に基づいて慎重に設計され、複数ラウンドの人間によるレビューを通して洗練されている。 7つのLLM実験の結果, 基準値に適合するモデルはごくわずかであり, さらなる拡張の可能性を示した。 KorNATは、データセットの品質評価を専門とする政府機関による評価を通過させた後、政府の承認を受けた。データセットのサンプルと詳細な評価プロトコルはhttps://selectstar.ai/ko/papers-national-alignmentに記載されている。

関連論文リスト

Towards A Cultural Intelligence and Values Inferences Quality Benchmark for Community Values and Common Knowledge [12.977626651989004]
大規模言語モデル(LLM)は強力な技術として登場し、ソフトウェアエンジニアリングチームに広く採用され、使用されています。多くの場合、LLMは一般人口を表す「汎用」技術として設計されている。これはしばしば、主に西コーカサスの物語と、他の文化や人口との不一致を意味している。
論文参考訳（メタデータ） (2025-12-04T17:15:47Z)
PBBQ: A Persian Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [0.3518016233072557]
ペルシャ語モデルにおける社会的バイアスを評価するために設計されたベンチマークデータセットであるPSBQを紹介する。 PBBQデータセットには、慎重にキュレートされた質問が37,000以上含まれている。以上の結果から,現在のLLMはペルシャ文化全体において有意な社会的偏見を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-10-22T14:12:00Z)
A Transparent Fairness Evaluation Protocol for Open-Source Language Model Benchmarking on the Blockchain [0.18570740863168358]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、その公平性に対する懸念は持続している。本稿では,インターネット・コンピュータ・プロトコル(ICP)ブロックチェーン上でのスマートコントラクトを用いて,オープンソースのLCMの公平性を評価するための透過的評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-07-29T22:49:00Z)
Benchmarking Multi-National Value Alignment for Large Language Models [23.378701093426546]
大規模言語モデルと5つの主要国の値の整合性を評価するためのベンチマークであるNaVABを紹介する。 NaVABは、価値評価データセットを効率的に構築するための国家価値抽出パイプラインを実装している。各国の様々なLCMについて広範な実験を行い、その結果、不整合シナリオの識別支援に関する知見を提供する。
論文参考訳（メタデータ） (2025-04-17T13:01:38Z)
Evaluating Multimodal Generative AI with Korean Educational Standards [3.8980564330208662]
韓国国立教育試験ベンチマーク(KoNET)は、マルチモーダル生成AIシステムを評価するために設計された新しいベンチマークである。 KoNETは、韓国初等教育開発試験(KoEGED)、中等教育開発試験(KoMGED)、高等教育試験(KoHGED)、高等教育能力試験(College Scholastic Ability Test(KoCSAT)の4つの試験からなる。
論文参考訳（メタデータ） (2025-02-21T12:46:40Z)
Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [57.002807772016524]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文参考訳（メタデータ） (2025-02-19T11:44:27Z)
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための半自動フレームワークを提案する。このフレームワークは人間とVLMのコラボレーションを組み合わせ、VLMはガイドライン、注釈付きサンプルの小さなセット、関連する知識に基づいて質問を生成し、続いてネイティブスピーカーによる検証プロセスを実行する。韓国文化に焦点を当てたデータセットであるK-Viscuitの作成を通じて,この枠組みの有効性を実証する。
論文参考訳（メタデータ） (2024-06-24T09:18:15Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.562961249150295]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文参考訳（メタデータ） (2023-08-28T06:56:44Z)
KoBBQ: Korean Bias Benchmark for Question Answering [28.091808407408823]
Bias Benchmark for Question Answering (BBQ)は、言語モデル(LM)の社会的バイアスを評価するように設計されている。韓国のバイアスベンチマークデータセットであるKoBBQを紹介する。本稿では,データセットの文化的適応を考慮に入れた一般的な枠組みを提案する。
論文参考訳（メタデータ） (2023-07-31T15:44:15Z)
KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文参考訳（メタデータ） (2023-06-15T17:20:46Z)
SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文参考訳（メタデータ） (2023-05-22T16:25:07Z)
Evaluating Language Models for Knowledge Base Completion [32.87131159997359]
教師なし知識ベース補完(KBC)のための言語モデル(LM)が最近提案されている。我々は,LMのKBCポテンシャルを現実的に評価するための,新しい,より挑戦的なベンチマークデータセットと方法論を導入する。 LMトレーニングにおいて,ほとんどの事実が直接観察されなかった関係においても,LMは驚くほど強い一般化能力を有することがわかった。
論文参考訳（メタデータ） (2023-03-20T13:14:59Z)
GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ） (2022-06-22T17:52:30Z)
KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文参考訳（メタデータ） (2022-04-09T20:13:51Z)
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文参考訳（メタデータ） (2021-02-02T18:42:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。