論文の概要: Caught in the Web of Words: Do LLMs Fall for Spin in Medical Literature?
- arxiv url: http://arxiv.org/abs/2502.07963v1
- Date: Tue, 11 Feb 2025 21:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:45.452156
- Title: Caught in the Web of Words: Do LLMs Fall for Spin in Medical Literature?
- Title(参考訳): Web of Words: LLMsは医学の分野で失敗するか?
- Authors: Hye Sun Yun, Karen Y. C. Zhang, Ramez Kouzy, Iain J. Marshall, Junyi Jessy Li, Byron C. Wallace,
- Abstract要約: 出版インセンティブは、実験結果が同等であっても、研究者に「ポジティブ」な発見を提示することを奨励する。
スピンは臨床医のエビデンス解釈に影響を与え、患者のケア決定に影響を及ぼす可能性がある。
本研究は,大規模言語モデルによる試験結果の解釈がスピンに影響しているかどうかを問うものである。
- 参考スコア(独自算出の注目度): 47.43946693104718
- License:
- Abstract: Medical research faces well-documented challenges in translating novel treatments into clinical practice. Publishing incentives encourage researchers to present "positive" findings, even when empirical results are equivocal. Consequently, it is well-documented that authors often spin study results, especially in article abstracts. Such spin can influence clinician interpretation of evidence and may affect patient care decisions. In this study, we ask whether the interpretation of trial results offered by Large Language Models (LLMs) is similarly affected by spin. This is important since LLMs are increasingly being used to trawl through and synthesize published medical evidence. We evaluated 22 LLMs and found that they are across the board more susceptible to spin than humans. They might also propagate spin into their outputs: We find evidence, e.g., that LLMs implicitly incorporate spin into plain language summaries that they generate. We also find, however, that LLMs are generally capable of recognizing spin, and can be prompted in a way to mitigate spin's impact on LLM outputs.
- Abstract(参考訳): 医学研究は、新しい治療法を臨床に翻訳する上で、十分に文書化された課題に直面している。
出版インセンティブは、実験結果が同等であっても、研究者に「ポジティブ」な発見を提示することを奨励する。
その結果、特に記事の要約において著者が研究結果をスピンすることが多いことがよく文書化されている。
このようなスピンは、臨床医による証拠の解釈に影響を与え、患者のケア決定に影響を及ぼす可能性がある。
本研究では,Large Language Models (LLMs) による試験結果の解釈がスピンに影響しているかどうかを問う。
LLMは、公表された医学的証拠を網羅し、合成するためにますます利用されているため、これは重要である。
実験の結果,22個のLDMを評価したところ,人間よりも回転に敏感であることが判明した。
スピンは出力に伝播するかもしれない: 例えば、LLMがスピンを、彼らが生成する平易な言語要約に暗黙的に組み込む証拠を見つける。
しかし、LLMは一般にスピンを認識することができ、LLM出力に対するスピンの影響を緩和する方法として誘導できる。
関連論文リスト
- LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions [20.44227547555244]
大規模言語モデル (LLMs) は、多くの研究者が科学的な研究に利用することを検討している。
筆者らによる816件の研究論文の大規模調査を行った。
81%の研究者がすでにLLMを研究ワークフローのさまざまな側面に組み込んでいることがわかった。
論文 参考訳(メタデータ) (2024-10-30T04:25:23Z) - Contextual Evaluation of Large Language Models for Classifying Tropical and Infectious Diseases [0.9798965031257411]
我々は、オープンソースの熱帯感染症(TRIND)データセットを構築し、11000以上のプロンプトを産出する人口統計学的、意味論的、消費者的増強を含むように拡張した。
一般のLSMと医学のLSMと、LSMの結果を人間の専門家と比較し、LSMのパフォーマンスを評価した。
本研究では, TRINDs-LMのプロトタイプを開発し, LLMが健康にどのような影響を及ぼすかを知るための遊び場を提供する。
論文 参考訳(メタデータ) (2024-09-13T21:28:54Z) - AI Meets the Classroom: When Does ChatGPT Harm Learning? [0.0]
我々は,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。
LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。
論文 参考訳(メタデータ) (2024-08-29T17:07:46Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Neural Retrievers are Biased Towards LLM-Generated Content [35.40318940303482]
大規模言語モデル(LLM)は情報検索(IR)のパラダイムに革命をもたらした。
これらのLCM生成した文書がIRシステムにどのように影響するかは、迫りつつも未解明の疑問である。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2023-10-31T14:42:23Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。