論文の概要: Generating Media Background Checks for Automated Source Critical Reasoning
- arxiv url: http://arxiv.org/abs/2409.00781v1
- Date: Sun, 1 Sep 2024 17:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 09:11:31.813594
- Title: Generating Media Background Checks for Automated Source Critical Reasoning
- Title(参考訳): 自動ソースクリティカル推論のためのメディアバックグラウンドチェックの生成
- Authors: Michael Schlichtkrull,
- Abstract要約: 検索可能な拡張モデルは、通常、検索された文書を不信にすることが期待されない。
人間の専門家は、ソースドキュメントのコンテキスト、信頼性、傾向に関する信号を収集することで、この課題を克服する。
メディアバイアス/ファクトチェックから得られた6,709件の"メディアバックグラウンドチェック"を新たに導入する。
- 参考スコア(独自算出の注目度): 4.66305351173549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Not everything on the internet is true. This unfortunate fact requires both humans and models to perform complex reasoning about credibility when working with retrieved information. In NLP, this problem has seen little attention. Indeed, retrieval-augmented models are not typically expected to distrust retrieved documents. Human experts overcome the challenge by gathering signals about the context, reliability, and tendency of source documents - that is, they perform source criticism. We propose a novel NLP task focused on finding and summarising such signals. We introduce a new dataset of 6,709 "media background checks" derived from Media Bias / Fact Check, a volunteer-run website documenting media bias. We test open-source and closed-source LLM baselines with and without retrieval on this dataset, finding that retrieval greatly improves performance. We furthermore carry out human evaluation, demonstrating that 1) media background checks are helpful for humans, and 2) media background checks are helpful for retrieval-augmented models.
- Abstract(参考訳): インターネット上のすべてが真実ではない。
この不運な事実は、検索された情報を扱う際に、人間とモデルの両方が信頼性に関する複雑な推論を行う必要がある。
NLPでは、この問題はほとんど注目されていない。
実際、検索強化されたモデルは、通常、検索された文書を不信にすることが期待されない。
人間の専門家は、ソースドキュメントのコンテキスト、信頼性、傾向に関するシグナルを集めることで、この課題を克服する。
そこで我々は,そのような信号の探索と要約に焦点をあてた新しいNLPタスクを提案する。
メディアバイアスを文書化するボランティア運営のWebサイトであるMedia Bias/Fact Checkから得られた6,709件の"メディアバックグラウンドチェック"のデータセットを紹介した。
我々は,オープンソースかつクローズドソースのLCMベースラインをこのデータセット上で検索せずにテストし,検索により性能が大幅に向上することを確認した。
我々はさらに人間の評価を行い、それを実証する。
1)メディアの背景検査は人間に役立ち、
2)メディアの背景チェックは,検索強化モデルに有用である。
関連論文リスト
- Fact or Fiction? Can LLMs be Reliable Annotators for Political Truths? [2.321323878201932]
政治的誤報は民主的プロセスに挑戦し、世論を形成し、メディアを信頼する。
本研究では,ニュース記事の政治的事実を検出するための信頼性アノテータとして,最先端の大規模言語モデル (LLM) を用いることを検討した。
論文 参考訳(メタデータ) (2024-11-08T18:36:33Z) - On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文 参考訳(メタデータ) (2024-10-31T03:50:15Z) - Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。
この現象はミドル・イン・ザ・ミドル問題として知られている。
また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文 参考訳(メタデータ) (2024-06-23T04:35:42Z) - Reliability Estimation of News Media Sources: Birds of a Feather Flock Together [0.7249731529275342]
本稿では,強化学習戦略を活用した情報源信頼度推定手法を提案する。
本手法を,既存データセットよりも桁違いに大きいニュースメディア信頼性データセット上で検証した。
我々は、情報検証に取り組んでいるNLPコミュニティにとって貴重なリソースを提供することを目的として、実装とデータセットをリリースする。
論文 参考訳(メタデータ) (2024-04-15T08:27:47Z) - Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in
Closed-Source LLMs [5.310555620116225]
我々は OpenAI の GPT-3.5 と GPT-4 を用いた最初の系統解析を行った。
モデルのリリース後最初の1年間に、これらのモデルにリークされたデータ量について文書化します。
我々はこれらのモデルが263ベンチマークから$sim$4.7Mのサンプルに世界中で公開されていることを報告した。
論文 参考訳(メタデータ) (2024-02-06T11:54:23Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Citations as Queries: Source Attribution Using Language Models as
Rerankers [2.3605348648054454]
我々は、英語のウィキペディアと中世アラビア語の歴史的文章の2つのデータセットで実験を行う。
半教師付き手法は完全教師付き手法と同じくらい効果的であることがわかった。
論文 参考訳(メタデータ) (2023-06-29T22:13:38Z) - Identifying Informational Sources in News Articles [109.70475599552523]
我々は、ニュース執筆に使用される情報ソースの、最大かつ最も広範囲にアノテートされたデータセットを構築した。
本稿では,ニュース記事中のソースの構成性を研究するための新しいタスクであるソース予測を導入する。
論文 参考訳(メタデータ) (2023-05-24T08:56:35Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Assisting the Human Fact-Checkers: Detecting All Previously Fact-Checked
Claims in a Document [27.076320857009655]
入力文書が与えられた場合、以前に事実確認されたクレームによって検証可能なクレームを含むすべての文を検出することを目的としている。
出力は文書文の再ランクリストであり、検証可能なものは可能な限り高くランク付けされる。
本分析は,テキストの類似性やスタンスをモデル化することの重要性を実証すると同時に,検索した事実チェックされたクレームの正確性も考慮する。
論文 参考訳(メタデータ) (2021-09-14T13:46:52Z) - "Don't quote me on that": Finding Mixtures of Sources in News Articles [85.92467549469147]
各ソースのtextitaffiliationとtextitroleに基づいてソースのオントロジーラベリングシステムを構築します。
これらの属性を名前付きソースに推論し、ニュース記事をこれらのソースの混合物として記述する確率モデルを構築します。
論文 参考訳(メタデータ) (2021-04-19T21:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。