論文の概要: Solving the Right Problem is Key for Translational NLP: A Case Study in
UMLS Vocabulary Insertion
- arxiv url: http://arxiv.org/abs/2311.15106v1
- Date: Sat, 25 Nov 2023 19:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:52:51.501929
- Title: Solving the Right Problem is Key for Translational NLP: A Case Study in
UMLS Vocabulary Insertion
- Title(参考訳): 正しい問題解決が翻訳NLPの鍵となる:UMLS語彙挿入を事例として
- Authors: Bernal Jimenez Gutierrez, Yuqing Mao, Vinh Nguyen, Kin Wah Fung, Yu
Su, Olivier Bodenreider
- Abstract要約: UMLSに数十万の新しい用語が加えられる重要な実世界の課題であるUMLS語彙挿入の事例について検討する。
現実世界のタスクを反映したUMLS語彙挿入の新しい定式化を導入する。
また、重要な新しいモデル行動を可能にする効果的なルール強化バイオメディカル言語モデルを提案する。
- 参考スコア(独自算出の注目度): 12.855898113768998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the immense opportunities enabled by large language models become more
apparent, NLP systems will be increasingly expected to excel in real-world
settings. However, in many instances, powerful models alone will not yield
translational NLP solutions, especially if the formulated problem is not well
aligned with the real-world task. In this work, we study the case of UMLS
vocabulary insertion, an important real-world task in which hundreds of
thousands of new terms, referred to as atoms, are added to the UMLS, one of the
most comprehensive open-source biomedical knowledge bases. Previous work aimed
to develop an automated NLP system to make this time-consuming, costly, and
error-prone task more efficient. Nevertheless, practical progress in this
direction has been difficult to achieve due to a problem formulation and
evaluation gap between research output and the real-world task. In order to
address this gap, we introduce a new formulation for UMLS vocabulary insertion
which mirrors the real-world task, datasets which faithfully represent it and
several strong baselines we developed through re-purposing existing solutions.
Additionally, we propose an effective rule-enhanced biomedical language model
which enables important new model behavior, outperforms all strong baselines
and provides measurable qualitative improvements to editors who carry out the
UVI task. We hope this case study provides insight into the considerable
importance of problem formulation for the success of translational NLP
solutions.
- Abstract(参考訳): 大きな言語モデルによって実現される膨大な機会がより明確になるにつれて、NLPシステムは現実世界の設定においてより優れていることが期待される。
しかし、多くの場合、強力なモデルだけでは、特に定式化された問題が現実世界のタスクとうまく一致しない場合、翻訳的NLPソリューションは得られない。
本稿では,umls語彙挿入の事例について検討する。これは,原子と呼ばれる数十万の新しい用語を,最も包括的なオープンソース生物医学的知識ベースであるumlsに追加する,重要な実世界の課題である。
それまでの作業は、この時間がかかり、コストがかかり、エラーが発生しやすいタスクをより効率的にするための自動化NLPシステムを開発することを目的としていた。
しかし, この方向の実践的な進歩は, 研究成果と実世界の課題との間の問題定式化と評価のギャップのため, 達成が困難である。
このギャップに対処するために、現実世界のタスク、それを忠実に表現するデータセット、そして既存のソリューションを再調達することで開発した強力なベースラインを反映したUMLS語彙挿入の新しい定式化を導入する。
さらに,重要な新しいモデル行動を可能にし,すべての強力なベースラインを上回り,uviタスクを実行する編集者に測定可能な質的改善を提供する,効果的なルールエンハンス型生物医学的言語モデルを提案する。
このケーススタディは、翻訳型NLPソリューションの成功における問題定式化の重要性についての洞察を与えてくれることを願っている。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Easy Problems That LLMs Get Wrong [0.0]
大規模言語モデル(LLM)の限界を評価するために設計された包括的な言語ベンチマークを導入する。
一連の簡単な質問を通じて、人間が簡単に管理するタスクを実行するための、よく考えられたモデルの重大な制限を明らかにする。
論文 参考訳(メタデータ) (2024-05-30T02:09:51Z) - ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation [2.296475290901356]
機械語-分子翻訳に焦点をあて、コントラスト優先最適化と呼ばれる新しい訓練手法を展開する。
その結果,我々のモデルでは,他のモデルと比較して最大32%の改善が達成された。
論文 参考訳(メタデータ) (2024-05-14T13:59:24Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Model-Agnostic Meta-Learning for Natural Language Understanding Tasks in
Finance [1.863067234952186]
低リソースの財務NLUタスクにおけるモデルに依存しないメタラーニングアルゴリズム(MAML)について検討する。
実験結果に基づき,本モデルによる最先端の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-06T02:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。