Fugu-MT 論文翻訳(概要): UVA Resources for the Biomedical Vocabulary Alignment at Scale in the UMLS Metathesaurus

論文の概要: UVA Resources for the Biomedical Vocabulary Alignment at Scale in the UMLS Metathesaurus

arxiv url: http://arxiv.org/abs/2205.10575v1
Date: Sat, 21 May 2022 12:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 18:26:05.366584
Title: UVA Resources for the Biomedical Vocabulary Alignment at Scale in the UMLS Metathesaurus
Title（参考訳）: UMLSメタテーラスにおけるバイオメディカル語彙アライメントのためのUVA資源
Authors: Vinh Nguyen, Olivier Bodenreider
Abstract要約: UMLS(Unified Medical Language System)メタテーザウルスは、時間がかかり、コストがかかり、エラーが発生しやすい。 UMLSメタthesaurusの構築プロセスを改善するため,本研究グループはUVAと呼ばれる新しいタスクを定義した。本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な,再現可能な資源について述べる。
参考スコア（独自算出の注目度）: 3.8432118328837053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The construction and maintenance process of the UMLS (Unified Medical Language System) Metathesaurus is time-consuming, costly, and error-prone as it relies on (1) the lexical and semantic processing for suggesting synonymous terms, and (2) the expertise of UMLS editors for curating the suggestions. For improving the UMLS Metathesaurus construction process, our research group has defined a new task called UVA (UMLS Vocabulary Alignment) and generated a dataset for evaluating the task. Our group has also developed different baselines for this task using logical rules (RBA), and neural networks (LexLM and ConLM). In this paper, we present a set of reusable and reproducible resources including (1) a dataset generator, (2) three datasets generated by using the generator, and (3) three baseline approaches. We describe the UVA dataset generator and its implementation generalized for any given UMLS release. We demonstrate the use of the dataset generator by generating datasets corresponding to three UMLS releases, 2020AA, 2021AA, and 2021AB. We provide three UVA baselines using the three existing approaches (LexLM, ConLM, and RBA). The code, the datasets, and the experiments are publicly available, reusable, and reproducible with any UMLS release (a no-cost license agreement is required for downloading the UMLS).
Abstract（参考訳）: UMLS(Unified Medical Language System)メタテーザウルスの構築と保守プロセスは,(1)同義語を提案する語彙的・意味的処理,(2)提案をキュレートするUMLSエディターの専門知識に依存するため,時間的・費用的にもコスト的にもエラーも生じやすい。 UMLSメタセサウルス構築プロセスを改善するため,本研究グループはUVA(UMLS Vocabulary Alignment)と呼ばれる新しいタスクを定義し,タスクを評価するデータセットを生成した。我々のグループは、論理ルール(RBA)とニューラルネットワーク(LexLMとConLM)を用いて、このタスクのための異なるベースラインも開発した。本稿では,(1)データセット生成装置,(2)ジェネレータを用いて生成された3つのデータセット,(3)ベースラインアプローチを含む再利用可能な資源の集合について述べる。本稿では,UVAデータセット生成器とその実装について述べる。本稿では,3つのUMLSリリース,2020AA,2021AA,2021ABに対応するデータセットを生成することで,データセットジェネレータの利用を実証する。既存の3つのアプローチ(LexLM, ConLM, RBA)を用いて3つのUVAベースラインを提供する。コード、データセット、実験は、UMLSリリースで公開され、再利用され、再現可能である(UMLSをダウンロードするためには、無償のライセンス契約が必要である)。

関連論文リスト

LLM-BABYBENCH: Understanding and Evaluating Grounded Planning and Reasoning in LLMs [2.1164936096078515]
$textbfLLM-BabyBench$は、対話環境の制約の中で計画と推論を行う大規模言語モデルの能力を評価するためのベンチマークスイートである。このスイートは、手続き的に生成されたBabyAIグリッド世界のテキスト適応に基づいて構築され、LLMを地上知能の3つの基本的な側面に基づいて評価する。
論文参考訳（メタデータ） (2025-05-17T20:23:17Z)
How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文参考訳（メタデータ） (2025-04-23T14:41:11Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Generating Text from Uniform Meaning Representation [3.031375888004876]
Uniform Meaning Representation (UMR) はグラフベースの意味表現である。 UMR技術エコシステムの開発に向けた努力が必要である。マルチリンガルなUMRグラフからテキストを生成するための最初のアプローチについて検討する。
論文参考訳（メタデータ） (2025-02-17T16:20:22Z)
SubData: Bridging Heterogeneous Datasets to Enable Theory-Driven Evaluation of Political and Demographic Perspectives in LLMs [4.04666623219944]
SubDataは、異種データセットを標準化し、パースペクティブアライメントを評価するために設計されたオープンソースのPythonライブラリである。本稿では,SubDataを利用した理論駆動型アプローチを提案する。
論文参考訳（メタデータ） (2024-12-21T21:40:31Z)
ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。 ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文参考訳（メタデータ） (2024-10-25T18:31:50Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution [46.41448772928026]
本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
論文参考訳（メタデータ） (2023-07-31T17:49:18Z)
Investigating Table-to-Text Generation Capabilities of LLMs in Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文参考訳（メタデータ） (2023-05-24T10:22:30Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。