論文の概要: Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track
- arxiv url: http://arxiv.org/abs/2411.18069v1
- Date: Wed, 27 Nov 2024 05:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:57.649097
- Title: Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track
- Title(参考訳): TREC 2024バイオメディカルジェネレーティブ検索(BioGen)の概要
- Authors: Deepak Gupta, Dina Demner-Fushman, William Hersh, Steven Bedrick, Kirk Roberts,
- Abstract要約: 幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。
不正確性は、臨床診断や生物医学研究の評価など、リスクの高い状況において特に有害である可能性がある。
バイオメディカルな疑問に答える LLM による偽文の発生を軽減する手段として, 参照帰属の課題を紹介した。
- 参考スコア(独自算出の注目度): 18.3893773380282
- License:
- Abstract: With the advancement of large language models (LLMs), the biomedical domain has seen significant progress and improvement in multiple tasks such as biomedical question answering, lay language summarization of the biomedical literature, clinical note summarization, etc. However, hallucinations or confabulations remain one of the key challenges when using LLMs in the biomedical and other domains. Inaccuracies may be particularly harmful in high-risk situations, such as making clinical decisions or appraising biomedical research. Studies on the evaluation of the LLMs' abilities to ground generated statements in verifiable sources have shown that models perform significantly worse on lay-user generated questions, and often fail to reference relevant sources. This can be problematic when those seeking information want evidence from studies to back up the claims from LLMs[3]. Unsupported statements are a major barrier to using LLMs in any applications that may affect health. Methods for grounding generated statements in reliable sources along with practical evaluation approaches are needed to overcome this barrier. Towards this, in our pilot task organized at TREC 2024, we introduced the task of reference attribution as a means to mitigate the generation of false statements by LLMs answering biomedical questions.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩に伴い,生物医学領域は,生物医学的質問応答,生物医学的文献の素語要約,臨床ノート要約など,複数のタスクにおいて顕著な進歩と改善を遂げている。
しかし、生物医学や他の領域でLLMを使用する場合、幻覚や折り畳みは依然として重要な課題の1つである。
不正確性は、臨床診断や生物医学研究の評価など、リスクの高い状況において特に有害である可能性がある。
検証可能な情報源において、LLMが生成した文をグラウンドで評価する能力についての研究により、モデルは日常ユーザ生成の質問に対して著しく悪化し、しばしば関連する情報源を参照できないことが示されている。
LLMs[3]の主張を裏付けるために、情報を求める人々が研究から証拠を求める場合、これは問題となる。
サポートされていないステートメントは、健康に影響を与える可能性のあるアプリケーションにおいて、LLMを使用する上で大きな障壁となる。
この障壁を克服するためには、信頼性のあるソースで生成されたステートメントを、実用的な評価手法とともにグラウンド化する方法が必要である。
そこで, TREC 2024で実施したパイロット課題では, バイオメディカルな疑問に答える LLM による虚偽文の生成を緩和する手段として, 参照属性のタスクを導入した。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。
我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。
データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文 参考訳(メタデータ) (2024-08-29T12:39:16Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Insights into Classifying and Mitigating LLMs' Hallucinations [48.04565928175536]
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。
我々は,大規模な言語モデルの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を探究する。
論文 参考訳(メタデータ) (2023-11-14T12:30:28Z) - Opportunities and Challenges for ChatGPT and Large Language Models in
Biomedicine and Health [22.858424132819795]
チャットGPTは、バイオメディシンと健康の分野における多様な応用の出現につながっている。
生体情報検索,質問応答,医用テキスト要約,医学教育の分野について検討する。
テキスト生成タスクの分野では,従来の最先端手法を超越した大きな進歩が見られた。
論文 参考訳(メタデータ) (2023-06-15T20:19:08Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。