論文の概要: CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13559v1
- Date: Mon, 19 May 2025 09:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.441264
- Title: CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models
- Title(参考訳): CS-Sum: コードスイッチング対話要約のベンチマークと大規模言語モデルの限界
- Authors: Sathya Krishnan Suresh, Tanmay Surana, Lim Zhi Hao, Eng Siong Chng,
- Abstract要約: コードスイッチング(CS)は、大規模言語モデル(LLM)に重大な課題をもたらす
LLMによるCSの理解度を評価するため,CS-Sumを導入した。
CS-Sumは、マンダリン・イングリッシュ、タミル・イングリッシュ、マレー・イングリッシュにまたがるCS対話要約の最初のベンチマークである。
- 参考スコア(独自算出の注目度): 18.378069426713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS) poses a significant challenge for Large Language Models (LLMs), yet its comprehensibility remains underexplored in LLMs. We introduce CS-Sum, to evaluate the comprehensibility of CS by the LLMs through CS dialogue to English summarization. CS-Sum is the first benchmark for CS dialogue summarization across Mandarin-English (EN-ZH), Tamil-English (EN-TA), and Malay-English (EN-MS), with 900-1300 human-annotated dialogues per language pair. Evaluating ten LLMs, including open and closed-source models, we analyze performance across few-shot, translate-summarize, and fine-tuning (LoRA, QLoRA on synthetic data) approaches. Our findings show that though the scores on automated metrics are high, LLMs make subtle mistakes that alter the complete meaning of the dialogue. To this end, we introduce 3 most common type of errors that LLMs make when handling CS input. Error rates vary across CS pairs and LLMs, with some LLMs showing more frequent errors on certain language pairs, underscoring the need for specialized training on code-switched data.
- Abstract(参考訳): コードスイッチング(CS)は、LLM(Large Language Models)にとって大きな課題となっているが、LLM(Large Language Models)ではその理解性が不足している。
LLMによるCSの理解度を評価するため,CS-Sumを導入した。
CS-Sumは、マンダリン・イングリッシュ(EN-ZH)、タミル・イングリッシュ(EN-TA)、マレー・イングリッシュ(EN-MS)にまたがるCS対話の要約の最初のベンチマークである。
オープンソースモデルやクローズドソースモデルを含む10個のLLMを評価し,数ショット,翻訳・要約,微調整(LoRA, QLoRA, 合成データ)のアプローチによる性能解析を行う。
自動測定値のスコアは高いが,LLMは,対話の完全な意味を変える微妙な誤りを犯す。
この目的のために,CS入力の処理において LLM が犯す最も一般的な3種類のエラーを紹介した。
誤り率はCSペアとLCMによって異なるが、一部のLCMは特定の言語ペアに対してより頻繁なエラーを示し、コード変更されたデータに対する特別なトレーニングの必要性を強調している。
関連論文リスト
- Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance [1.1784026260358966]
我々はヒンディー語、マラティー語、ベンガル語に着目し、地域言語処理のためのSLMを評価し、言語的複雑さを理解する。
分析の結果,言語固有のトークンーザはインドの言語に対して汎用的なトークンーよりも優れていた。
これらの知見は、SLMの未保存言語への実践的応用と、我々のニューラルネットワーク開発に関する理論的理解の両方を前進させる。
論文 参考訳(メタデータ) (2025-04-07T10:33:14Z) - Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set [28.592959007943538]
本研究では,大規模言語モデル (LLM) が言語やフレームワークにまたがって一般化する談話知識を捉えているかどうかを検討する。
テストベッドとして多言語対話関係分類を用いて, 様々なサイズと多言語機能を持つ23個のLLMの包括的集合について検討した。
以上の結果から,LLM,特に多言語学習コーパスでは,言語やフレームワーク間での会話情報を一般化することが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-03-13T16:20:25Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding [10.154013836043816]
赤チームクエリのコードスイッチングは、大規模言語モデル(LLM)の望ましくない振る舞いを効果的に引き出すことができる
コードスイッチング型リピートクエリを合成するための,シンプルで効果的なフレームワークCSRTを導入する。
CSRTは,既存の多言語リピート技術よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T06:08:18Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。