論文の概要: Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2512.22100v1
- Date: Fri, 26 Dec 2025 18:02:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:00.544982
- Title: Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis
- Title(参考訳): TrGLUEとSentiTurcaの紹介:トルコの汎用言語理解と感性分析のための総合ベンチマーク
- Authors: Duygu Altinok,
- Abstract要約: TrGLUEはトルコ語で自然言語理解を評価するためのベンチマークである。
感情分析のための特別なベンチマークであるSentiTurcaも紹介する。
TrGLUEは、ドメインとGLUEスタイルの評価のタスク定式化を反映したトルコ原産コーパスで構成されている。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License:
- Abstract: Evaluating the performance of various model architectures, such as transformers, large language models (LLMs), and other NLP systems, requires comprehensive benchmarks that measure performance across multiple dimensions. Among these, the evaluation of natural language understanding (NLU) is particularly critical as it serves as a fundamental criterion for assessing model capabilities. Thus, it is essential to establish benchmarks that enable thorough evaluation and analysis of NLU abilities from diverse perspectives. While the GLUE benchmark has set a standard for evaluating English NLU, similar benchmarks have been developed for other languages, such as CLUE for Chinese, FLUE for French, and JGLUE for Japanese. However, no comparable benchmark currently exists for the Turkish language. To address this gap, we introduce TrGLUE, a comprehensive benchmark encompassing a variety of NLU tasks for Turkish. In addition, we present SentiTurca, a specialized benchmark for sentiment analysis. To support researchers, we also provide fine-tuning and evaluation code for transformer-based models, facilitating the effective use of these benchmarks. TrGLUE comprises Turkish-native corpora curated to mirror the domains and task formulations of GLUE-style evaluations, with labels obtained through a semi-automated pipeline that combines strong LLM-based annotation, cross-model agreement checks, and subsequent human validation. This design prioritizes linguistic naturalness, minimizes direct translation artifacts, and yields a scalable, reproducible workflow. With TrGLUE, our goal is to establish a robust evaluation framework for Turkish NLU, empower researchers with valuable resources, and provide insights into generating high-quality semi-automated datasets.
- Abstract(参考訳): 変換器、大規模言語モデル(LLM)、その他のNLPシステムなどの様々なモデルアーキテクチャの性能を評価するには、複数の次元にわたるパフォーマンスを測定する包括的なベンチマークが必要である。
これらのうち、自然言語理解(NLU)の評価は、モデル能力を評価するための基本的な基準となるため、特に重要である。
したがって、多様な視点からNLU能力の徹底的な評価と分析を可能にするベンチマークを確立することが不可欠である。
GLUEベンチマークは英語のNLUを評価する標準となっているが、中国語のCLUE、フランス語のFLUE、日本語のJGLUEなど、他の言語でも同様のベンチマークが開発されている。
しかし、現在トルコ語に匹敵するベンチマークは存在しない。
このギャップに対処するため、トルコの様々なNLUタスクを含む総合的なベンチマークであるTrGLUEを紹介した。
さらに、感情分析のための特別なベンチマークであるSentiTurcaを紹介する。
研究者を支援するため、トランスフォーマーモデルのための微調整および評価コードも提供し、これらのベンチマークを効果的に活用する。
TrGLUEは、GLUEスタイルの評価のドメインとタスクの定式化を反映したトルコネイティブコーパスで構成され、強力なLLMベースのアノテーション、クロスモデル合意チェック、その後の検証を組み合わせた半自動パイプラインを通じてラベルが得られた。
この設計は言語的自然性を優先し、直接翻訳アーティファクトを最小限に抑え、スケーラブルで再現可能なワークフローを生み出す。
TrGLUEでは、トルコのNLUのための堅牢な評価フレームワークを確立し、研究者に貴重なリソースを提供し、高品質な半自動データセットの生成に関する洞察を提供することを目標としています。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models [24.555147139475242]
タスクごとに高品質なベンチマークを作成するためのフレームワークであるZero-shot Benchmarking (ZSB)を提案する。
ZSBはシンプルで柔軟性があり、データ生成のためのプロンプトの作成と評価のためのプロンプトのみを必要とする。
実際のデータを収集する作業や言語には、費用がかかるか実用的でない。
論文 参考訳(メタデータ) (2025-04-01T17:40:08Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。