論文の概要: CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity
and Infant Care
- arxiv url: http://arxiv.org/abs/2307.01458v2
- Date: Thu, 31 Aug 2023 09:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 19:39:17.576433
- Title: CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity
and Infant Care
- Title(参考訳): CARE-MI:母子保健における誤情報評価のための中国のベンチマーク
- Authors: Tong Xiang, Liangzhi Li, Wangyue Li, Mingbai Bai, Lu Wei, Bowen Wang,
Noa Garcia
- Abstract要約: 大規模言語モデル(LLM)における誤情報評価のためのベンチマークCARE-MIを提案する。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
ベンチマークの結果,母子関係や乳幼児ケアの分野では,現在の中国のLSMは完璧とは程遠いことが判明した。
- 参考スコア(独自算出の注目度): 14.326936563564171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in natural language processing (NLP), have led to a new
trend of applying large language models (LLMs) to real-world scenarios. While
the latest LLMs are astonishingly fluent when interacting with humans, they
suffer from the misinformation problem by unintentionally generating factually
false statements. This can lead to harmful consequences, especially when
produced within sensitive contexts, such as healthcare. Yet few previous works
have focused on evaluating misinformation in the long-form (LF) generation of
LLMs, especially for knowledge-intensive topics. Moreover, although LLMs have
been shown to perform well in different languages, misinformation evaluation
has been mostly conducted in English. To this end, we present a benchmark,
CARE-MI, for evaluating LLM misinformation in: 1) a sensitive topic,
specifically the maternity and infant care domain; and 2) a language other than
English, namely Chinese. Most importantly, we provide an innovative paradigm
for building LF generation evaluation benchmarks that can be transferred to
other knowledge-intensive domains and low-resourced languages. Our proposed
benchmark fills the gap between the extensive usage of LLMs and the lack of
datasets for assessing the misinformation generated by these models. It
contains 1,612 expert-checked questions, accompanied with human-selected
references. Using our benchmark, we conduct extensive experiments and found
that current Chinese LLMs are far from perfect in the topic of maternity and
infant care. In an effort to minimize the reliance on human resources for
performance evaluation, we offer off-the-shelf judgment models for
automatically assessing the LF output of LLMs given benchmark questions.
Moreover, we compare potential solutions for LF generation evaluation and
provide insights for building better automated metrics.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、大規模言語モデル(LLM)を現実のシナリオに適用する新たなトレンドにつながっている。
最新のLSMは、人間と対話するときに驚くほど流動的だが、意図せずに事実を偽造することによって誤情報問題に悩まされる。
これにより、特に医療などのセンシティブなコンテキストで生成された場合、有害な結果が発生する可能性がある。
しかし、LLMの長文(LF)世代における誤情報の評価、特に知識集約的な話題に焦点を当てた以前の研究はほとんどない。
さらに、LLMは様々な言語でうまく機能することが示されているが、誤情報評価は主に英語で行われている。
そこで本研究では,LCM誤情報評価のためのベンチマークCARE-MIを提案する。
1)敏感な話題、具体的には母性及び乳幼児ケア領域
2) 英語以外の言語,すなわち中国語。
最も重要なことは、他の知識集約型ドメインや低リソース言語に転送可能なLF生成評価ベンチマークを構築するための革新的なパラダイムを提供することです。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
専門家による1,612の質問と、人間による参照が含まれている。
以上の結果から,現在の中国のLSMは母性や乳幼児ケアの分野では完璧とは程遠いことが判明した。
性能評価のための人的資源への依存を最小限に抑えるため,ベンチマーク質問に対するLLMのLF出力を自動評価するオフ・ザ・シェルフ判定モデルを提案する。
さらに、LF生成評価の潜在的なソリューションを比較し、より良い自動メトリクスを構築するための洞察を提供する。
関連論文リスト
- Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation [1.0173628293062005]
大規模言語モデル(LLM)は、様々な複雑な言語タスクに適用されている。
本稿では,ベトナムのファクトチェックタスクにおけるLPMを用いた自動データ生成について検討する。
簡単なプロンプト技術を用いて自動データ構築プロセスを開発し、生成したデータの品質を改善するためにいくつかの手法を探索する。
論文 参考訳(メタデータ) (2024-11-08T15:35:43Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
ProverbEvalは,証明に基づく低リソース言語の評価ベンチマークである。
様々なLCMをベンチマークし、ベンチマークプロセスにおける変数を生成する要因を探索する。
我々は、選択の順序、プロンプト言語の選択、タスクの可変性、生成タスクに特別な注意を払わなければならないと論じている。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。