論文の概要: WangchanThaiInstruct: An instruction-following Dataset for Culture-Aware, Multitask, and Multi-domain Evaluation in Thai
- arxiv url: http://arxiv.org/abs/2508.15239v2
- Date: Fri, 19 Sep 2025 10:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.179451
- Title: WangchanThaiInstruct: An instruction-following Dataset for Culture-Aware, Multitask, and Multi-domain Evaluation in Thai
- Title(参考訳): WangchanThai Instruct:タイにおける文化意識・マルチタスク・マルチドメイン評価のための指示追従データセット
- Authors: Peerat Limkonchotiwat, Pume Tuchinda, Lalita Lowphansirikul, Surapon Nonesung, Panuthep Tasawong, Alham Fikri Aji, Can Udomcharoenchaikit, Sarana Nutanong,
- Abstract要約: WangchanThaiInstructは、人手による評価と指導のためのタイ語データセットである。
WangchanThaiInstructは,(1)文化的・専門的なタスクにおけるパフォーマンスのギャップを示すゼロショット評価,(2)ネイティブ・インスペクティブの効果を孤立させた指導指導研究の2つの研究を支援する。
- 参考スコア(独自算出の注目度): 26.688798540840352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel at instruction-following in English, but their performance in low-resource languages like Thai remains underexplored. Existing benchmarks often rely on translations, missing cultural and domain-specific nuances needed for real-world use. We present WangchanThaiInstruct, a human-authored Thai dataset for evaluation and instruction tuning, covering four professional domains and seven task types. Created through a multi-stage quality control process with annotators, domain experts, and AI researchers, WangchanThaiInstruct supports two studies: (1) a zero-shot evaluation showing performance gaps on culturally and professionally specific tasks, and (2) an instruction tuning study with ablations isolating the effect of native supervision. Models fine-tuned on WangchanThaiInstruct outperform those using translated data in both in-domain and out-of-domain benchmarks. These findings underscore the need for culturally and professionally grounded instruction data to improve LLM alignment in low-resource, linguistically diverse settings.
- Abstract(参考訳): 大規模な言語モデルは英語の指示追従に優れていますが、タイ語のような低リソース言語でのそれらのパフォーマンスはいまだに未調査です。
既存のベンチマークは、しばしば翻訳に依存し、実際の使用に必要な文化的およびドメイン固有のニュアンスを欠いている。
提案するWangchanThai Instructは,4つの専門ドメインと7つのタスクタイプをカバーする,評価と指導のための人為的なタイ語データセットである。
WangchanThai Instructは、アノテータ、ドメインエキスパート、AI研究者による多段階品質管理プロセスを通じて作成され、(1)文化的・専門的なタスクにおけるパフォーマンスギャップを示すゼロショット評価、(2)先住民の監督効果を分離した指導指導指導研究の2つの研究を支援する。
WangchanThaiInstructで微調整されたモデルは、ドメイン内と外部のベンチマークの両方で、翻訳データを使用するモデルより優れている。
これらの知見は,低資源・言語学的に多様な環境下でのLCMアライメントを改善するために,文化的・専門的な根拠を持つ指導データの必要性を浮き彫りにした。
関連論文リスト
- ThaiOCRBench: A Task-Diverse Benchmark for Vision-Language Understanding in Thai [2.4295338216682456]
ThaiOCRBenchは、タイ語テキストに富んだ視覚理解タスクにおいて、視覚言語モデル(VLM)を評価するための最初の包括的なベンチマークである。
我々は、プロプライエタリシステムとオープンソースシステムの両方にまたがるゼロショット設定で、最先端のVLMを幅広く評価する。
詳細な誤り分析を通じて,言語バイアス,構造ミスマッチ,幻覚コンテンツといった重要な課題を識別する。
論文 参考訳(メタデータ) (2025-11-06T15:57:39Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [57.002807772016524]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。
データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。
データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文 参考訳(メタデータ) (2025-02-19T11:44:27Z) - TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? -- A Case Study on Korea Financial Texts [0.8624680612413766]
FinMTEBのような既存のベンチマークは、主に高リソース言語向けに設計されている。
韓国金融ドメインの新しいベンチマークであるKorFinMTEBを紹介する。
実験結果から,FinMTEBの翻訳版ではモデルが頑健に動作する一方で,KorFinMTEB上での性能は微妙に重要な相違点を明らかにした。
論文 参考訳(メタデータ) (2025-02-10T23:49:39Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models [79.0546136194314]
マルチモーダルな大言語モデルのゼロショットタスクの一般化を改善するために,新しい視覚的インストラクションチューニング手法を提案する。
十分な多彩なテキストのみのデータの増加は、視覚言語アプローチよりも効率的でありながら、モダリティ全体にわたって命令追従能力とドメイン知識の伝達を可能にする。
論文 参考訳(メタデータ) (2024-11-15T20:09:59Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。