Fugu-MT 論文翻訳(概要): Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track

論文の概要: Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track

arxiv url: http://arxiv.org/abs/2411.18069v2
Date: Sat, 14 Dec 2024 05:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.340245
Title: Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track
Title（参考訳）: TREC 2024バイオメディカルジェネレーティブ検索(BioGen)の概要
Authors: Deepak Gupta, Dina Demner-Fushman, William Hersh, Steven Bedrick, Kirk Roberts,
Abstract要約: 幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。不正確性は、医学的質問への回答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
参考スコア（独自算出の注目度）: 18.3893773380282
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the advancement of large language models (LLMs), the biomedical domain has seen significant progress and improvement in multiple tasks such as biomedical question answering, lay language summarization of the biomedical literature, clinical note summarization, etc. However, hallucinations or confabulations remain one of the key challenges when using LLMs in the biomedical and other domains. Inaccuracies may be particularly harmful in high-risk situations, such as medical question answering, making clinical decisions, or appraising biomedical research. Studies on the evaluation of the LLMs abilities to ground generated statements in verifiable sources have shown that models perform significantly worse on lay-user-generated questions, and often fail to reference relevant sources. This can be problematic when those seeking information want evidence from studies to back up the claims from LLMs. Unsupported statements are a major barrier to using LLMs in any applications that may affect health. Methods for grounding generated statements in reliable sources along with practical evaluation approaches are needed to overcome this barrier. Towards this, in our pilot task organized at TREC 2024, we introduced the task of reference attribution as a means to mitigate the generation of false statements by LLMs answering biomedical questions.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩に伴い,生物医学領域は,生物医学的質問応答,生物医学的文献の素語要約,臨床ノート要約など,複数のタスクにおいて顕著な進歩と改善を遂げている。しかし、生物医学や他の領域でLLMを使用する場合、幻覚や折り畳みは依然として重要な課題の1つである。不正確性は、医学的質問応答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。検証可能な情報源において, LLMが生成した文をグラウンドで評価すると, モデルが日常ユーザ生成の質問に対して著しく悪化し, 関連資料の参照に失敗するケースがしばしばある。 LLMの主張を裏付けるために、情報を求める人々が研究から証拠を求める場合、これは問題となる可能性がある。サポートされていないステートメントは、健康に影響を与える可能性のあるアプリケーションにおいて、LLMを使用する上で大きな障壁となる。この障壁を克服するためには、信頼性のあるソースで生成されたステートメントを、実用的な評価手法とともにグラウンド化する方法が必要である。そこで, TREC 2024で実施したパイロット課題では, バイオメディカルな疑問に答える LLM による虚偽文の生成を緩和する手段として, 参照属性のタスクを導入した。

関連論文リスト

Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases [7.894865736540358]
大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
論文参考訳（メタデータ） (2025-06-13T17:12:47Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文参考訳（メタデータ） (2024-08-29T12:39:16Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文参考訳（メタデータ） (2024-06-09T16:33:28Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
Insights into Classifying and Mitigating LLMs' Hallucinations [48.04565928175536]
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。我々は,大規模な言語モデルの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を探究する。
論文参考訳（メタデータ） (2023-11-14T12:30:28Z)
Don't Ignore Dual Logic Ability of LLMs while Privatizing: A Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文参考訳（メタデータ） (2023-09-08T08:20:46Z)
Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health [22.858424132819795]
チャットGPTは、バイオメディシンと健康の分野における多様な応用の出現につながっている。生体情報検索,質問応答,医用テキスト要約,医学教育の分野について検討する。テキスト生成タスクの分野では,従来の最先端手法を超越した大きな進歩が見られた。
論文参考訳（メタデータ） (2023-06-15T20:19:08Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)
Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews [21.546144601311187]
大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。 LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
論文参考訳（メタデータ） (2023-05-19T17:09:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。