論文の概要: Are Large Language Models Good Fact Checkers: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2311.17355v1
- Date: Wed, 29 Nov 2023 05:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:43:58.109854
- Title: Are Large Language Models Good Fact Checkers: A Preliminary Study
- Title(参考訳): 大型言語モデルは良いファクトチェッカーか:予備研究
- Authors: Han Cao, Lingwei Wei, Mengyang Chen, Wei Zhou, Songlin Hu
- Abstract要約: 大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
- 参考スコア(独自算出の注目度): 26.023148371263012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) have drawn significant attention due
to their outstanding reasoning capabilities and extensive knowledge repository,
positioning them as superior in handling various natural language processing
tasks compared to other language models. In this paper, we present a
preliminary investigation into the potential of LLMs in fact-checking. This
study aims to comprehensively evaluate various LLMs in tackling specific
fact-checking subtasks, systematically evaluating their capabilities, and
conducting a comparative analysis of their performance against pre-trained and
state-of-the-art low-parameter models. Experiments demonstrate that LLMs
achieve competitive performance compared to other small models in most
scenarios. However, they encounter challenges in effectively handling Chinese
fact verification and the entirety of the fact-checking pipeline due to
language inconsistencies and hallucinations. These findings underscore the need
for further exploration and research to enhance the proficiency of LLMs as
reliable fact-checkers, unveiling the potential capability of LLMs and the
possible challenges in fact-checking tasks.
- Abstract(参考訳): 近年、大規模言語モデル(llm)は、その優れた推論能力と広範な知識リポジトリにより、他の言語モデルに比べて様々な自然言語処理タスクの処理が優れていると位置づけられ、大きな注目を集めている。
本稿では,ファクトチェックにおけるLCMの可能性を予備検討する。
本研究の目的は,特定のファクトチェックサブタスクに取り組む際の様々なllmを総合的に評価し,その性能を体系的に評価し,事前訓練された低パラメータモデルとの比較分析を行うことである。
実験は、llmがほとんどのシナリオで他の小さなモデルと比較して競争力のある性能を達成することを実証する。
しかし、言語の矛盾や幻覚のため、中国の事実検証や事実チェックパイプライン全体を扱う上での課題に遭遇する。
これらの知見は、信頼性のあるファクトチェッカーとしてのLCMの熟練度を高めるためのさらなる調査と研究の必要性を浮き彫りにした。
関連論文リスト
- Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Evaluating the Capability of Large-scale Language Models on Chinese
Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。
本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文 参考訳(メタデータ) (2023-07-08T13:10:59Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。