論文の概要: FactFinders at CheckThat! 2024: Refining Check-worthy Statement Detection with LLMs through Data Pruning
- arxiv url: http://arxiv.org/abs/2406.18297v1
- Date: Wed, 26 Jun 2024 12:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:39:16.225598
- Title: FactFinders at CheckThat! 2024: Refining Check-worthy Statement Detection with LLMs through Data Pruning
- Title(参考訳): FactFinders at CheckThat! 2024: データプルーニングによるLLMによるチェック価値のあるステートメント検出の精錬
- Authors: Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga,
- Abstract要約: 本研究では,オープンソースの言語モデルを用いて,政治的書き起こしからチェックにふさわしい文章を識別する手法について検討する。
本稿では,高品質なトレーニングデータインスタンスを自動的に同定し,効果的な学習を行うための2段階のデータ解析手法を提案する。
私たちのチームは英語のチェック・マインドネス・タスクで1位にランクインした。
- 参考スコア(独自算出の注目度): 43.82613670331329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid dissemination of information through social media and the Internet has posed a significant challenge for fact-checking, among others in identifying check-worthy claims that fact-checkers should pay attention to, i.e. filtering claims needing fact-checking from a large pool of sentences. This challenge has stressed the need to focus on determining the priority of claims, specifically which claims are worth to be fact-checked. Despite advancements in this area in recent years, the application of large language models (LLMs), such as GPT, has only recently drawn attention in studies. However, many open-source LLMs remain underexplored. Therefore, this study investigates the application of eight prominent open-source LLMs with fine-tuning and prompt engineering to identify check-worthy statements from political transcriptions. Further, we propose a two-step data pruning approach to automatically identify high-quality training data instances for effective learning. The efficiency of our approach is demonstrated through evaluations on the English language dataset as part of the check-worthiness estimation task of CheckThat! 2024. Further, the experiments conducted with data pruning demonstrate that competitive performance can be achieved with only about 44\% of the training data. Our team ranked first in the check-worthiness estimation task in the English language.
- Abstract(参考訳): ソーシャルメディアやインターネットを通じての情報発信が急速に進んでいることは、事実チェックが大量の文から事実チェックを必要とする主張をフィルタリングするなど、事実チェックを行う上で重要な課題となっている。
この課題は、クレームの優先順位を決定すること、特にどのクレームが事実確認に値するかに焦点を当てることを強調している。
近年、この分野の進歩にもかかわらず、GPTのような大規模言語モデル(LLM)の適用は、最近になって研究に注目が集まっている。
しかし、多くのオープンソース LLM は未調査のままである。
そこで本研究では,8つの著名なオープンソースLCMを微調整・迅速な工学的手法を用いて,政治的書き起こしからチェック価値のある文章を識別する手法について検討した。
さらに,効率的な学習のために,高品質なトレーニングデータインスタンスを自動識別する2段階のデータプルーニング手法を提案する。
提案手法の有効性は,CheckThatのチェックしやすさ評価タスクの一環として,英語データセットの評価を通じて実証される。
2024年。
さらに,データプルーニングを用いて行った実験では,トレーニングデータの44.5%程度で,競争性能が達成できることが示されている。
私たちのチームは英語のチェック・マインドネス・タスクで1位にランクインした。
関連論文リスト
- Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research [7.242609314791262]
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
本稿では,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。
論文 参考訳(メタデータ) (2024-01-22T14:17:03Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Multilingual Previously Fact-Checked Claim Retrieval [1.4884363206251627]
本稿では,ファクトチェックされたクレーム検索のための多言語データセットであるMultiClaimを提案する。
ソーシャルメディアから27言語28k、プロのファクトチェッカーが書いた39言語206kのファクトチェックを収集しました。
我々は、このデータセットとその様々な次元において、異なる教師なしの手法がいかに相応しいかを評価した。
論文 参考訳(メタデータ) (2023-05-13T20:00:18Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying
Multilingual Check-worthy Claims [6.167830237917659]
本稿では,意図しないバイアスを軽減するための補助課題として,言語識別タスクを提案する。
その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2021-09-19T21:46:16Z) - Claim Check-Worthiness Detection as Positive Unlabelled Learning [53.24606510691877]
クレームチェックの信頼性検出はファクトチェックシステムにおいて重要な要素である。
これらの課題の根底にあるクレームチェックの信頼性検出における中心的な課題を照明する。
我々の最良の手法は、正の非競合学習の変種を用いて、これを自動的に修正する統一的なアプローチである。
論文 参考訳(メタデータ) (2020-03-05T16:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。