論文の概要: Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track
- arxiv url: http://arxiv.org/abs/2411.18069v2
- Date: Sat, 14 Dec 2024 05:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:48:40.720885
- Title: Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track
- Title(参考訳): TREC 2024バイオメディカルジェネレーティブ検索(BioGen)の概要
- Authors: Deepak Gupta, Dina Demner-Fushman, William Hersh, Steven Bedrick, Kirk Roberts,
- Abstract要約: 幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。
不正確性は、医学的質問への回答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
- 参考スコア(独自算出の注目度): 18.3893773380282
- License:
- Abstract: With the advancement of large language models (LLMs), the biomedical domain has seen significant progress and improvement in multiple tasks such as biomedical question answering, lay language summarization of the biomedical literature, clinical note summarization, etc. However, hallucinations or confabulations remain one of the key challenges when using LLMs in the biomedical and other domains. Inaccuracies may be particularly harmful in high-risk situations, such as medical question answering, making clinical decisions, or appraising biomedical research. Studies on the evaluation of the LLMs abilities to ground generated statements in verifiable sources have shown that models perform significantly worse on lay-user-generated questions, and often fail to reference relevant sources. This can be problematic when those seeking information want evidence from studies to back up the claims from LLMs. Unsupported statements are a major barrier to using LLMs in any applications that may affect health. Methods for grounding generated statements in reliable sources along with practical evaluation approaches are needed to overcome this barrier. Towards this, in our pilot task organized at TREC 2024, we introduced the task of reference attribution as a means to mitigate the generation of false statements by LLMs answering biomedical questions.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩に伴い,生物医学領域は,生物医学的質問応答,生物医学的文献の素語要約,臨床ノート要約など,複数のタスクにおいて顕著な進歩と改善を遂げている。
しかし、生物医学や他の領域でLLMを使用する場合、幻覚や折り畳みは依然として重要な課題の1つである。
不正確性は、医学的質問応答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
検証可能な情報源において, LLMが生成した文をグラウンドで評価すると, モデルが日常ユーザ生成の質問に対して著しく悪化し, 関連資料の参照に失敗するケースがしばしばある。
LLMの主張を裏付けるために、情報を求める人々が研究から証拠を求める場合、これは問題となる可能性がある。
サポートされていないステートメントは、健康に影響を与える可能性のあるアプリケーションにおいて、LLMを使用する上で大きな障壁となる。
この障壁を克服するためには、信頼性のあるソースで生成されたステートメントを、実用的な評価手法とともにグラウンド化する方法が必要である。
そこで, TREC 2024で実施したパイロット課題では, バイオメディカルな疑問に答える LLM による虚偽文の生成を緩和する手段として, 参照属性のタスクを導入した。
関連論文リスト
- The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。
我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。
データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文 参考訳(メタデータ) (2024-08-29T12:39:16Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。
RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文 参考訳(メタデータ) (2024-07-17T07:44:18Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Insights into Classifying and Mitigating LLMs' Hallucinations [48.04565928175536]
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。
我々は,大規模な言語モデルの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を探究する。
論文 参考訳(メタデータ) (2023-11-14T12:30:28Z) - Opportunities and Challenges for ChatGPT and Large Language Models in
Biomedicine and Health [22.858424132819795]
チャットGPTは、バイオメディシンと健康の分野における多様な応用の出現につながっている。
生体情報検索,質問応答,医用テキスト要約,医学教育の分野について検討する。
テキスト生成タスクの分野では,従来の最先端手法を超越した大きな進歩が見られた。
論文 参考訳(メタデータ) (2023-06-15T20:19:08Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文 参考訳(メタデータ) (2023-05-19T17:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。