論文の概要: IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian
- arxiv url: http://arxiv.org/abs/2507.22159v1
- Date: Tue, 29 Jul 2025 18:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.813375
- Title: IndoPref: A Multi-Domain Pairwise Preference Dataset for Indonesian
- Title(参考訳): IndoPref: インドネシアの多ドメインペアワイズな推奨データセット
- Authors: Vanessa Rebecca Wiyono, David Anugraha, Ayu Purwarianti, Genta Indra Winata,
- Abstract要約: IndoPrefは、最初の完全な人間によるマルチドメインインドネシアの嗜好データセットである。
すべてのアノテーションはインドネシア語で書かれており、クリッペンドルフのαを用いて評価されており、強い注釈間の合意を示している。
- 参考スコア(独自算出の注目度): 11.564887118533766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over 200 million people speak Indonesian, yet the language remains significantly underrepresented in preference-based research for large language models (LLMs). Most existing multilingual datasets are derived from English translations, often resulting in content that lacks cultural and linguistic authenticity. To address this gap, we introduce IndoPref, the first fully human-authored and multi-domain Indonesian preference dataset specifically designed to evaluate the naturalness and quality of LLM-generated text. All annotations are natively written in Indonesian and evaluated using Krippendorff's alpha, demonstrating strong inter-annotator agreement. Additionally, we benchmark the dataset across multiple LLMs and assess the output quality of each model.
- Abstract(参考訳): 2億人以上の人々がインドネシア語を話すが、大きな言語モデル(LLM)の嗜好に基づく研究において、この言語は依然として著しく過小評価されている。
既存の多言語データセットの多くは英語の翻訳から派生したもので、しばしば文化や言語的な正確性に欠ける内容をもたらす。
このギャップに対処するために、私たちは、LLM生成テキストの自然性と品質を評価するために特別に設計された、最初の完全な人間によるマルチドメインインドネシアの嗜好データセットであるIndoPrefを紹介します。
すべてのアノテーションはインドネシア語でネイティブに書かれており、クリッペンドルフのαを用いて評価されており、強い注釈間の合意を示している。
さらに、複数のLCMにまたがってデータセットをベンチマークし、各モデルの出力品質を評価する。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance [1.1784026260358966]
我々はヒンディー語、マラティー語、ベンガル語に着目し、地域言語処理のためのSLMを評価し、言語的複雑さを理解する。
分析の結果,言語固有のトークンーザはインドの言語に対して汎用的なトークンーよりも優れていた。
これらの知見は、SLMの未保存言語への実践的応用と、我々のニューラルネットワーク開発に関する理論的理解の両方を前進させる。
論文 参考訳(メタデータ) (2025-04-07T10:33:14Z) - COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.3062731746155414]
COMI-lingUAは、ヒンディー語と英語のコード混成データセットとしては最大である。
5つのコアNLPタスクにわたる125K以上の高品質なインスタンスで構成されている。
各インスタンスには3つのバイリンガルアノテーションがアノテートされ、376K以上の専門家アノテーションが生成される。
論文 参考訳(メタデータ) (2025-03-27T16:36:39Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。