論文の概要: Polite on the Surface, Wrong in Practice: A Curated Dataset for Fixing Honorific Failures in Multilingual Bangla Generation
- arxiv url: http://arxiv.org/abs/2605.22487v1
- Date: Thu, 21 May 2026 13:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.576758
- Title: Polite on the Surface, Wrong in Practice: A Curated Dataset for Fixing Honorific Failures in Multilingual Bangla Generation
- Title(参考訳): 表面のポリト, 実践上の誤り:多言語バングラ生成における名誉障害の修正のための修正データセット
- Authors: Md. Asaduzzaman Shuvo, Mahedi Hasan, Md. Tashin Parvez, Azizul Haque Noman, Md. Shafayet Hossain Ovi,
- Abstract要約: 我々はtextbfBangLa アプリケーションと DialoguE 生成のための新しい,文化的に整合した命令チューニングデータセットを提案する。
我々はこのリソースを利用して、DeepSeek-8BやLLaMA-3.2-3Bなど、先進的なオープンウェイトアーキテクチャを体系的に微調整し、評価する。
我々の経験的評価は、データセットに微調整されたモデルが、構造的忠実度と名誉的アライメントを大幅に改善することを示している。
- 参考スコア(独自算出の注目度): 0.0815557531820863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multilingual Large Language Models (MLLMs) have significantly enhanced cross-lingual conversational capabilities, yet modeling culturally nuanced and context-dependent communication remains a critical bottleneck. Specifically, existing state-of-the-art models exhibit a severe pragmatic gap when handling structural variations, regional idioms, and honorific consistencies in low-resource contexts like Bangla. To address this limitation, we introduce a novel, culturally aligned instruction-tuning dataset for \textbf{BangLa Application and DialoguE generation - BLADE} and benchmarking framework comprising $4,196$ meticulously curated interaction pairs. We leverage this resource to systematically fine-tune and evaluate leading open-weight architectures, including DeepSeek-8B and LLaMA-3.2-3B, utilizing parameter-efficient fine-tuning via LoRA adapters in a 4-bit NormalFloat (NF4) quantization framework. Our empirical evaluations demonstrate that models fine-tuned on our dataset yield substantial improvements in structural fidelity and honorific alignment, providing a rigorous benchmark for bridging pragmatic disparities in low-resource multilingual text generation. Code and dataset: https://github.com/ashuvo25/Bangla_Application_LLM/tree/main
- Abstract(参考訳): MLLM(Multilingual Large Language Models)の最近の進歩は、言語間対話能力を大幅に向上させたが、文化的にニュアンスと文脈に依存したコミュニケーションをモデル化することは、依然として重要なボトルネックとなっている。
具体的には、既存の最先端モデルは、構造的変動、地域的イディオム、およびバングラのような低リソースの文脈における名誉な構成を扱う際に、深刻な実用的ギャップを示す。
この制限に対処するために、新しい、文化的に整合した命令チューニングデータセットを、textbf{BangLa Application and DialoguE generation - BLADE} と、細心の注意を払ってキュレートされた相互作用ペアからなるベンチマークフレームワークに導入する。
我々は、このリソースを利用して、DeepSeek-8BやLLaMA-3.2-3Bといった主要なオープンウェイトアーキテクチャを体系的に微調整し、評価し、4ビット正規フロート(NF4)量子化フレームワークでLoRAアダプタを介してパラメータ効率の良い微調整を行う。
我々の経験的評価は、我々のデータセットに微調整されたモデルが、構造的忠実度と名誉的整合性を大幅に改善し、低リソース多言語テキスト生成における実用的な相違をブリッジするための厳密なベンチマークを提供することを示した。
コードとデータセット:https://github.com/ashuvo25/Bangla_Application_LLM/tree/main
関連論文リスト
- Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。
本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。
JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文 参考訳(メタデータ) (2026-02-04T17:02:22Z) - AfriqueLLM: How Data Mixing and Model Architecture Impact Continued Pre-training for African Languages [30.309928265469427]
大規模言語モデル(LLM)は多言語化が進んでいるが、オープンモデルはプロプライエタリなシステムに比べて性能が劣っている。
我々は26Bトークン上でCPTを通じて20のアフリカ言語に適応したオープンLLMスイートである textttAfriqueLLM を提示する。
論文 参考訳(メタデータ) (2026-01-10T02:39:31Z) - BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - Pushing the boundary on Natural Language Inference [49.15148871877941]
自然言語推論(NLI)は、ファクトチェック、質問応答、情報検索における自然言語理解の中心的なタスクである。
その重要性にもかかわらず、現在のNLIシステムは、アーティファクトやバイアス、推論、実世界の適用性を制限した学習に大きく依存している。
この作業は、品質や実世界の適用性を犠牲にすることなく、堅牢なNLIシステムを構築するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-25T14:20:57Z) - Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [57.002807772016524]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。
データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。
データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文 参考訳(メタデータ) (2025-02-19T11:44:27Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - WangchanBERTa: Pretraining transformer-based Thai Language Models [2.186960190193067]
大規模で重複したクリーンなトレーニングセット(総サイズ78GB)上で,RoBERTaベースアーキテクチャに基づく言語モデルを事前訓練する。
我々は,タイの最も重要な保存空間に特有のテキスト処理規則を適用する。
また, 単語レベル, 音節レベル, SentencePiece のトークン化を, より小さなデータセットで実験し, 下流の性能に及ぼすトークン化の影響について検討した。
論文 参考訳(メタデータ) (2021-01-24T03:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。