論文の概要: Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization
- arxiv url: http://arxiv.org/abs/2505.05070v1
- Date: Thu, 08 May 2025 09:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.818081
- Title: Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization
- Title(参考訳): バングラデシュにおける大規模言語モデルの性能評価
- Authors: Ajwad Abrar, Farzana Tabassum, Sabbir Ahmed,
- Abstract要約: 本研究では,9大言語モデル(LLM)のゼロショット性能について検討する。
ROUGEメトリクスを用いてこれらのLCMを、細調整された最先端モデルであるBangla T5に対してベンチマークした。
その結果、ゼロショットLLMは微調整モデルと競合し、タスク固有の訓練を必要とせずに高品質なサマリーを達成できることを示した。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Consumer Health Queries (CHQs) in Bengali (Bangla), a low-resource language, often contain extraneous details, complicating efficient medical responses. This study investigates the zero-shot performance of nine advanced large language models (LLMs): GPT-3.5-Turbo, GPT-4, Claude-3.5-Sonnet, Llama3-70b-Instruct, Mixtral-8x22b-Instruct, Gemini-1.5-Pro, Qwen2-72b-Instruct, Gemma-2-27b, and Athene-70B, in summarizing Bangla CHQs. Using the BanglaCHQ-Summ dataset comprising 2,350 annotated query-summary pairs, we benchmarked these LLMs using ROUGE metrics against Bangla T5, a fine-tuned state-of-the-art model. Mixtral-8x22b-Instruct emerged as the top performing model in ROUGE-1 and ROUGE-L, while Bangla T5 excelled in ROUGE-2. The results demonstrate that zero-shot LLMs can rival fine-tuned models, achieving high-quality summaries even without task-specific training. This work underscores the potential of LLMs in addressing challenges in low-resource languages, providing scalable solutions for healthcare query summarization.
- Abstract(参考訳): 低リソースの言語であるベンガル(バンガラ)のConsumer Health Queries (CHQs)は、しばしば、効率的な医療反応を複雑に含む、余分な詳細を含んでいる。
本研究では,GPT-3.5-Turbo,GPT-4,Claude-3.5-Sonnet,Llama3-70b-Instruct,Mixtral-8x22b-Instruct,Gemini-1.5-Pro,Qwe n2-72b-Instruct,Gemma-2-27b,Athene-70Bの9種類の大規模言語モデルのゼロショット性能について検討した。
2350の注釈付きクエリ-サマリーペアからなるBanglaCHQ-Summデータセットを用いて、ROUGEメトリクスを用いて、細調整された最先端モデルであるBangla T5に対して、これらのLCMをベンチマークした。
Mixtral-8x22b-InstructはROUGE-1とROUGE-Lでトップパフォーマンスモデルとして登場し、Bangla T5はROUGE-2で優れていた。
その結果、ゼロショットLLMは微調整モデルと競合し、タスク固有の訓練を必要とせずに高品質なサマリーを達成できることを示した。
この研究は、低リソース言語における課題に対処するLLMの可能性を強調し、医療クエリの要約のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Branch-Solve-Merge Improves Large Language Model Evaluation and Generation [136.7876524839751]
大規模言語モデル(LLM)は多面的言語生成や評価タスクに頻繁に使用される。
本稿では,これらの課題に対処するための大規模言語モデルプログラムであるブランチ・マージ(BSM)を提案する。
BSMは、人間とLLMの合意を最大26%向上させることにより、各LLMの評価正当性と整合性を向上させる。
論文 参考訳(メタデータ) (2023-10-23T17:29:48Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla [21.47743471497797]
本研究はバングラの自然言語生成モデルを評価するためのベンチマークを示す。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
クリーンコーパス27.5GBのBanglaデータを用いて、Banglaのシーケンス・ツー・シーケンス・トランスフォーマーモデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
論文 参考訳(メタデータ) (2022-05-23T06:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。