論文の概要: MadDog: A Web-based System for Acronym Identification and Disambiguation
- arxiv url: http://arxiv.org/abs/2101.09893v1
- Date: Mon, 25 Jan 2021 04:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 07:33:37.394046
- Title: MadDog: A Web-based System for Acronym Identification and Disambiguation
- Title(参考訳): MadDog: 頭字語識別と曖昧化のためのWebベースシステム
- Authors: Amir Pouran Ben Veyseh, Franck Dernoncourt, Walter Chang, Thien Huu
Nguyen
- Abstract要約: 略語と略語は、長いフレーズの短い形式であり、さまざまなタイプの執筆に広く使用されています。
その有用性にもかかわらず、特に頭字語がテキストに定義されていない場合は、テキストを理解するための課題も提供します。
様々なドメインの頭字語を処理できる初のウェブベースの頭字語識別および曖昧化システムを提供します。
- 参考スコア(独自算出の注目度): 44.33455510438843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acronyms and abbreviations are the short-form of longer phrases and they are
ubiquitously employed in various types of writing. Despite their usefulness to
save space in writing and reader's time in reading, they also provide
challenges for understanding the text especially if the acronym is not defined
in the text or if it is used far from its definition in long texts. To
alleviate this issue, there are considerable efforts both from the research
community and software developers to build systems for identifying acronyms and
finding their correct meanings in the text. However, none of the existing works
provide a unified solution capable of processing acronyms in various domains
and to be publicly available. Thus, we provide the first web-based acronym
identification and disambiguation system which can process acronyms from
various domains including scientific, biomedical, and general domains. The
web-based system is publicly available at http://iq.cs.uoregon.edu:5000 and a
demo video is available at https://youtu.be/IkSh7LqI42M. The system source code
is also available at https://github.com/amirveyseh/ MadDog.
- Abstract(参考訳): 略語と略語は、長いフレーズの短い形式であり、さまざまなタイプの執筆に広く使用されています。
文章中のスペースと読み時間の節約が有用であるにもかかわらず、特に頭字語がテキストで定義されていない場合や長いテキストでの定義から遠く離れている場合など、テキストを理解する上での課題もある。
この問題を軽減するため、研究コミュニティとソフトウェア開発者の両方から、頭字語を識別するシステムを構築し、テキスト中の正しい意味を見つけるための努力がなされている。
しかし、既存の作品のいずれも、さまざまなドメインで頭字語を処理し、公開可能な統一ソリューションを提供していない。
そこで我々は, 科学, 生物医学, 一般分野など, 様々な分野の頭字語を処理できる, 初めてのWebベースの頭字語識別・曖昧化システムを提供する。
Webベースのシステムはhttp://iq.cs.uoregon.edu:5000で公開されており、デモビデオはhttps://youtu.be/IkSh7LqI42Mで公開されている。
システムソースコードはhttps://github.com/amirveyseh/ MadDogでも入手できる。
- 全文 参考訳へのリンク
関連論文リスト
- MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain
Acronym Extraction [66.60031336330547]
様々なNLPアプリケーションには、頭字語とその拡張形式が必要である。
既存のAE研究の限界の1つは、それらが英語と特定のドメインに限定されていることである。
複数の言語やドメインにアノテートされたデータセットが欠落することは、この分野の研究を妨げる大きな問題となっている。
論文 参考訳(メタデータ) (2022-02-19T23:08:38Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - SimCLAD: A Simple Framework for Contrastive Learning of Acronym
Disambiguation [26.896811663334162]
そこで我々は,頭字語意味をよりよく理解するために,頭字語不明瞭化のコントラスト学習法(SimCLAD)を提案する。
英語の科学領域の頭字語的曖昧さに関する結果は、提案手法が他の競争的最先端(SOTA)手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-11-29T02:39:59Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [73.27016167284839]
視覚的および意味的位置符号化を実現するために,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、注意機構に続く視覚的特徴と意味的特徴の両方を問合せする。
我々はMDCDPを数回積み重ねて正確な距離モデリングを行うCDistNetという新しいアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Leveraging Domain Agnostic and Specific Knowledge for Acronym
Disambiguation [5.766754189548904]
アクロニムの曖昧さは、テキストの中で曖昧なアクロニムの正しい意味を見つけることを目的としている。
本稿では,hdBERTを用いた階層型デュアルパスBERT法を提案する。
62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。
論文 参考訳(メタデータ) (2021-07-01T09:10:00Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Acronym Identification and Disambiguation Shared Tasks for Scientific
Document Understanding [41.63345823743157]
頭字語は、文章でよく使われる長いフレーズの短い形です。
すべてのテキスト理解ツールは、テキストの頭字語を認識することができるはずです。
本研究の方向性を推し進めるため,学術文献における頭字語識別と頭字語曖昧化の2つのタスクを編成した。
論文 参考訳(メタデータ) (2020-12-22T00:29:15Z) - Primer AI's Systems for Acronym Identification and Disambiguation [0.0]
頭字語識別と曖昧化のための新しい手法を提案する。
提案手法に比べて性能が大幅に向上した。
両システムは、SDU@AAAI-21共有タスクリーダーボード上で競合的に動作します。
論文 参考訳(メタデータ) (2020-12-14T23:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。