論文の概要: Primer AI's Systems for Acronym Identification and Disambiguation
- arxiv url: http://arxiv.org/abs/2012.08013v2
- Date: Wed, 6 Jan 2021 00:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 15:11:36.387048
- Title: Primer AI's Systems for Acronym Identification and Disambiguation
- Title(参考訳): Primer AIの頭字語識別と曖昧化のためのシステム
- Authors: Nicholas Egan, John Bohannon
- Abstract要約: 頭字語識別と曖昧化のための新しい手法を提案する。
提案手法に比べて性能が大幅に向上した。
両システムは、SDU@AAAI-21共有タスクリーダーボード上で競合的に動作します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence of ambiguous acronyms make scientific documents harder to
understand for humans and machines alike, presenting a need for models that can
automatically identify acronyms in text and disambiguate their meaning. We
introduce new methods for acronym identification and disambiguation: our
acronym identification model projects learned token embeddings onto tag
predictions, and our acronym disambiguation model finds training examples with
similar sentence embeddings as test examples. Both of our systems achieve
significant performance gains over previously suggested methods, and perform
competitively on the SDU@AAAI-21 shared task leaderboard. Our models were
trained in part on new distantly-supervised datasets for these tasks which we
call AuxAI and AuxAD. We also identified a duplication conflict issue in the
SciAD dataset, and formed a deduplicated version of SciAD that we call
SciAD-dedupe. We publicly released all three of these datasets, and hope that
they help the community make further strides in scientific document
understanding.
- Abstract(参考訳): 曖昧な頭字語が普及すると、人間や機械にとって科学文書を理解するのが難しくなり、テキスト中の頭字語を自動的に識別し、その意味を曖昧にするモデルが必要となる。
我々の頭字語識別モデルは、タグ予測にトークン埋め込みを学習し、頭字語非曖昧化モデルは、類似した文埋め込みをテスト例としてトレーニング例を見つける。
いずれのシステムも,提案手法よりも大幅な性能向上を実現し,SDU@AAAI-21共有タスクリーダーボード上で競争的に機能する。
私たちのモデルは、AuxAIとAuxADと呼ばれるこれらのタスクのための、新しい遠隔監視データセットに基づいてトレーニングされました。
また、SciADデータセットの重複競合問題を特定し、SciADの重複バージョンをSciAD-dedupeと呼ぶ形で作成した。
これら3つのデータセットを公開し、コミュニティが科学的文書理解をさらに前進させることを願っています。
関連論文リスト
- Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - BERT-based Acronym Disambiguation with Multiple Training Strategies [8.82012912690778]
Acronym disambiguation (AD) タスクは、与えられた文中の曖昧な頭字語を正しく拡張することを目的としている。
BERTと動的負のサンプル選択を含むいくつかのトレーニング戦略を組み込んだバイナリ分類モデルを提案する。
SciAD実験は,提案手法の有効性を示し,SDU@AAAI-21共有課題2:Acronym Disambiguationのスコアが1位となった。
論文 参考訳(メタデータ) (2021-02-25T05:40:21Z) - SciDr at SDU-2020: IDEAS -- Identifying and Disambiguating Everyday
Acronyms for Scientific Domain [0.0]
Acronym Identification (AI) と Acronym Disambiguation (AD) の共通タスクに提案したシステムについて述べる。
私たちは主にBERTとSciBERTで実験します。
ADでは、問題をスパン予測タスクとして定式化し、さまざまなトレーニングテクニックを実験し、外部データの使用を活用します。
論文 参考訳(メタデータ) (2021-02-17T15:24:50Z) - AT-BERT: Adversarial Training BERT for Acronym Identification Winning
Solution for SDU@AAAI-21 [5.478126869836199]
頭字語識別は、頭字語と省略されたフレーズを見つけることに焦点を当てています。
大規模コーパス上で事前学習された言語モデルの最近のブレークスルーは、教師なし事前学習が下流タスクの性能を大幅に改善できることを示している。
AAAI 2021のScientific Document Understanding (SDU) Challengeの頭字語識別タスクに対する当社の勝利ソリューションであるAT-BERTというAdversarial Training BERTメソッドを紹介します。
論文 参考訳(メタデータ) (2021-01-11T05:02:34Z) - Acronym Identification and Disambiguation Shared Tasks for Scientific
Document Understanding [41.63345823743157]
頭字語は、文章でよく使われる長いフレーズの短い形です。
すべてのテキスト理解ツールは、テキストの頭字語を認識することができるはずです。
本研究の方向性を推し進めるため,学術文献における頭字語識別と頭字語曖昧化の2つのタスクを編成した。
論文 参考訳(メタデータ) (2020-12-22T00:29:15Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。