# (参考訳) 神経抽出探索 [全文訳有]

Neural Extractive Search ( http://arxiv.org/abs/2106.04612v1 )

ライセンス: CC BY 4.0
Shauli Ravfogel, Hillel Taub-Tabib, Yoav Goldberg(参考訳) ドメインの専門家は、しばしば大きなコーパスから構造化された情報を抽出する必要がある。 我々は,このような高速な抽出を可能にするために,探索クエリをキャプチャスロットで豊かにする「抽出探索」という探索パラダイムを提唱する。 このような抽出検索システムは構文構造を中心に構築することができ、高い精度、低リコール結果が得られる。 ニューラル検索とアライメントを用いてリコールをどのように改善できるかを示す。 本論文の目的は,抽出探索パラダイムを簡潔に導入し,抽出探索のためのニューラル検索システムの試作と,その利点と可能性を示すことである。 プロトタイプは \url{https://spike.neural -sim.apps.allenai.or g/} で利用可能であり、ビデオデモは \url{https://vimeo.com/55 9586687} で利用可能である。

Domain experts often need to extract structured information from large corpora. We advocate for a search paradigm called ``extractive search'', in which a search query is enriched with capture-slots, to allow for such rapid extraction. Such an extractive search system can be built around syntactic structures, resulting in high-precision, low-recall results. We show how the recall can be improved using neural retrieval and alignment. The goals of this paper are to concisely introduce the extractive-search paradigm; and to demonstrate a prototype neural retrieval system for extractive search and its benefits and potential. Our prototype is available at \url{https://spike.neural -sim.apps.allenai.or g/} and a video demonstration is available at \url{https://vimeo.com/55 9586687}.
公開日: Tue, 8 Jun 2021 18:03:31 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
Neural Extractive Search Shauli Ravfogel1,2 Hillel Taub-Tabib2 Yoav Goldberg1,2 神経抽出探索 Shauli Ravfogel1,2 Hillel Taub-Tabib2 Yoav Goldberg1,2 0.57
1Computer Science Department, Bar Ilan University バー・アイラン大学1コンピュータ科学科 0.72
{shauli.ravfogel, yoav.goldberg}@gmail.com shauli.ravfogel, yoav.goldberg}@gmail.com 0.63
2Allen Institute for Artificial Intelligence 2Allen Institute for Artificial Intelligence 0.99
hillelt@allenai.org hillelt@allenai.org 0.78
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 2 1 6 4 0 1 v 2 1 6 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Domain experts often need to extract structured information from large corpora. 概要 ドメインの専門家は、しばしば大きなコーパスから構造化された情報を抽出する必要がある。 0.47
We advocate for a search paradigm called “extractive search”, in which a search query is enriched with capture-slots, to allow for such rapid extraction. 我々は,検索クエリをキャプチャスロットで豊かにすることで,このような迅速な検索を可能にする,“extractive search”と呼ばれる検索パラダイムを提唱する。 0.80
Such an extractive search system can be built around syntactic structures, resulting in high-precision, low-recall results. このような抽出検索システムは構文構造を中心に構築することができ、高い精度、低リコール結果が得られる。 0.65
We show how the recall can be improved using neural retrieval and alignment. ニューラル検索とアライメントを用いてリコールをどのように改善できるかを示す。 0.55
The goals of this paper are to concisely introduce the extractive-search paradigm; and to demonstrate a prototype neural retrieval system for extractive search and its benefits and potential. 本論文の目的は,抽出探索パラダイムを簡潔に導入し,抽出探索のためのニューラル検索システムの試作と,その利点と可能性を示すことである。 0.81
Our prototype is available at https://spike. 私たちのプロトタイプはhttps://spike.com/で利用可能です。 0.43
neural-sim.apps.alle nai.org/ and a video demonstration is available at https:// vimeo.com/559586687. neural-sim.apps.alle nai.org/とビデオデモがhttps:// vimeo.com/559586687で公開されている。 0.47
1 Introduction In this paper we demonstrate how to extend a search paradigm we call “extractive search” with neural similarity techniques. 1 はじめに 本稿では,ニューラルネットワークの類似性を用いて,"extractive search"と呼ばれる検索パラダイムを拡張する方法を示す。 0.73
The increasing availability of large datasets calls for search tools which support different types of information needs. 大規模データセットの可用性が高まり、さまざまな種類の情報ニーズをサポートする検索ツールが求められている。 0.65
Search engines like Google Search or Microsoft Bing are optimized for surfacing documents addressing information needs that can be satisfied by reviewing a handful of top results. google searchやmicrosoft bingのような検索エンジンは、一握りの検索結果をレビューすることで満足できる情報ニーズに対応する文書に最適化されている。
訳抜け防止モード: Google検索やMicrosoft Bingなどの検索エンジンは最適化されている 少数の上位結果を見直すことで満足できる情報ニーズに対処する文書。
Academic search engines (Semantic Scholar, Google Scholar, Pubmed Search, etc) address also information needs targeting more than a handful of documents, yet still require the user to read through the returned documents. 学術検索エンジン(Semantic Scholar、Google Scholar、Pubmed Searchなど)も、少数のドキュメントをターゲットにした情報を必要とするが、返却されたドキュメントを読まなければならない。 0.76
However, some information needs require extracting and aggregating sub-sentence information (words, phrases, or entities) from multiple documents (e g a list of all the risk factors for a specific disease and their number of mentions, or a comprehensive table of startups and CEOs). しかし、いくつかの情報には、複数の文書からサブセンテンス情報(単語、フレーズ、エンティティ)を抽出・集約する必要がある(例えば、特定の病気とその言及数に関するすべての危険因子のリストや、スタートアップやceoの包括的な表)。 0.70
These typically fall outside the scope of search engines and instead are classified as Information Extraction (IE), entailing a research project and a dedicated team per use-case, putting them well beyond the abilities of the typical information seeker. これら 通常、検索エンジンの範囲外にあり、代わりに情報抽出(ie)に分類され、ユースケースごとに研究プロジェクトと専用のチームを含んでおり、典型的な情報探索者の能力を超えている。 0.74
In contrast, we advocate for a complementary search paradigm: extractive search, which combines document selection with information extraction. 対照的に、文書選択と情報抽出を組み合わせた抽出探索という補完的な探索パラダイムを提唱する。 0.69
The query is extended with capture slots: these are search terms that act as variables, whose values should be extracted (“captured”).1 The user is then presented with the matched documents, each annotated with the corresponding captured spans, as well as aggregate information over the captured spans (e g , a count-ranked list of the values that were captured in the different slots). クエリはキャプチャスロットで拡張される: これらは変数として振る舞う検索語であり、その値を抽出する(“captured”)。1 ユーザはマッチしたドキュメントを提示され、対応するキャプチャスパンにアノテートされるとともに、キャプチャスパン上の情報を集約する(例えば、異なるスロットでキャプチャされた値のカウントランクリスト)。 0.68
The extractive search paradigm is currently implemented in our SPIKE system.2 Aspects of its earlier versions are presented in Shlain et al (2020); Taub-Tabib et al (2020). 抽出探索パラダイムは現在,SPIKEシステムで実装されている。2 以前のバージョンは Shlain et al (2020), Taub-Tabib et al (2020) で紹介されている。 0.75
One way of specifying which slots to capture is by their roles with respect to some predicate, semantic-frame, or a sentence. どのスロットをキャプチャするかを指定する1つの方法は、ある述語、セマンティックフレーム、あるいは文に対する役割によって指定される。 0.58
In particular, the SPIKE system features syntax-based symbolic extractive search—described further in section 2—where the capture slots correspond to specific positions in a syntactic-configuration (i.e., “capture the subject of the predicate founded in the first capture slot, and the object of the predicate in the second capture slot”). 特に、SPIKEシステムは構文に基づく記号抽出検索(セクション2でさらに記述されている)を備えており、この領域では、キャプチャスロットは構文的な設定における特定の位置に対応する(つまり、"第1のキャプチャスロットで確立された述語と第2のキャプチャスロットにおける述語の対象をキャプチャする")。 0.67
These are specified using a “by-example” syntax (Shlain et al , 2020), in which the user marks the predicate and capture slots on a provided example sentence, and the syntactic configuration is inferred. これらは"by-example"構文(shlain et al , 2020)を使用して指定され、ユーザは与えられた例文に述語とキャプチャスロットをマークし、構文構成を推測する。 0.76
While such parse-based matching can be very effective, it also suffers from the known limitations of symbolic systems: it excels in precision and control, but often lacks in recall. このようなパースベースのマッチングは非常に効果的であるが、シンボリックシステムの既知の制限に悩まされる:精度と制御が優れているが、しばしばリコールに欠ける。 0.65
In this work, 1Capture-slots can be thought of as being analogous to この作品では 1capture-slotsは類似していると考えることができる 0.62
captures in regular-expressions. 正規表現でキャプチャする。 0.53
2https://allenai.git hub.io/spike/ 2https://allenai.git hub.io/spike/ 0.34
Figure 1: Results of neural extractive search. 図1: 神経抽出検索の結果。 0.74
The neural results are based on the syntactic query: SomethingARG1 is a drug extracted from plantsARG2 (underlines denote named capture slots, and bold text denotes an exact lexical match). SomethingARG1は、植物ARG2から抽出された薬物である(下線はキャプチャスロットと名付けられ、大胆なテキストは正確な語彙の一致を示す)。
訳抜け防止モード: 神経学的結果は構文的クエリーに基づく : somethingARG1は、植物ARG2から抽出された薬物である。 大胆な文章は正確な語彙の一致を表しています)
The results show linguistic and lexical diversity w.r.t to the initial query, and highlight also spans corresponding to ARG1 and ARG2 (in light blue and yellow). 結果は、最初のクエリに対する言語的および語彙的多様性w.r.tを示し、ARG1とARG2(明るい青と黄色)に対応するハイライトも示した。 0.57
The right box contains an aggregate view of the captured spans over many results. 右のボックスには、多くの結果に対してキャプチャされたスパンの集約ビューが含まれている。 0.52
we demonstrate how the symbolic system can be combined with the flexibility of neural semantic similarity as induced by large pre-trained language models. このシンボリックシステムは, 大規模事前学習された言語モデルによって誘発される, 神経意味的類似性の柔軟性と組み合わせることができることを示す。 0.64
Figure 1 presents an overview of the system, containing a query with capture slots, the derived syntactic query, the returned (neural) results with marked spans, and an aggregate summary of the extracted pairs. 図1は、キャプチャスロット付きクエリ、派生した構文クエリ、マークされたスパンで返された(神経的な)結果、抽出されたペアの集計要約を含む、システムの概要を示しています。
訳抜け防止モード: 図1は、キャプチャスロット付きのクエリを含むシステムの概要を示します。 派生した構文クエリ、返された(ニューラルな)結果とマークされたスパン、 そして抽出されたペアの総まとめ。
By allowing fuzzy matches based on neural similarity search, we substantially improve recall, at the expense of some of the precision and control. ニューラル類似性探索に基づくファジィマッチングを許容することにより、精度と制御を犠牲にしてリコールを大幅に改善する。 0.67
The incorporation of neural similarity search requires two stages: retrieval of relevant sentences, and locating the roles corresponding to the capturespans on each sentence. ニューラル類似性の探索は、関連する文の検索と、各文のキャプチャスパンに対応する役割の特定という2つの段階を必要とする。 0.70
We use standard dense passage retrieval methods for the first part (section 3), and present a neural alignment model for the second part (section 4). 本稿では,第1部(第3部)に高密度経路探索法を用い,第2部(第4部)にニューラルアライメントモデルを提案する。 0.76
The alignment model is generic: it is designed to be pre-trained once, and then applied to every query in real time. アライメントモデルは汎用的であり、一度事前トレーニングされ、すべてのクエリにリアルタイムで適用されるように設計されている。 0.64
This allows to provide an interactive search system which returns an initial response in near real-time, and continues to stream additional responses. これにより、ほぼリアルタイムで初期応答を返却し、追加応答をストリームし続けるインタラクティブな検索システムを提供することができる。 0.74
The purpose of this paper then is twofold: first, it serves as a concise introduction of the extractivesearch paradigm. そこで本論文の目的は2つある:まず,抽出探索パラダイムの簡潔な導入として機能する。 0.77
Second, and more importantly, it demonstrates an incorporation of neural similarity techniques into this paradigm. 第二に、さらに重要なことは、このパラダイムにニューラル類似性技術が組み込まれていることである。 0.58
2 Symbolic Extractive Search We introduce the extractive search paradigm through usage examples. 2 記号抽出探索 利用例を通して抽出検索パラダイムを紹介する。 0.72
Boolean Extractive Search. Consider a researcher who would like to compile a list of treatments to Bacteremia (bloodstream infection). ブール抽出探索。 細菌血症(血液感染症)に対する治療法のリストをまとめたい研究者を考えてみよう。 0.62
Searching Google for “Bacteremia treatment” might lead to a Healthline article discussing a handful of treatments.3, which is not a great outcome. google を “bacteremia treatment” として検索すると、いくつかの治療法について議論する healthline の記事が出てくるかもしれない。 0.60
A similar query in PubMed Search leads to over 30,000 matching papers, not all are relevant and each including only nuggets of relevant information. PubMed Searchの類似したクエリは3万以上の一致する論文につながり、すべて関連性があり、それぞれが関連する情報のナゲットのみを含んでいる。 0.67
Compare this with the extractive boolean query: これを抽出したbooleanクエリと比較する。 0.70
Bacteremia treatment :entity=CHEMICAL 細菌血症治療 : エンティティ=ケミカル 0.54
in SPIKE-PubMed (Taub-Tabib et al , 2020), a search system over PubMed abstracts. SPIKE-PubMed (Taub-Tabib et al , 2020)では、PubMedの抽象概念を検索する。 0.72
“entity=CHEMICAL” indicates that we are interested in spans that correspond to chemicals, and the preceding colon (“:”) designate this term as a capture. entity=CHEMICAL" は、化学物質に対応するスパンに興味があることを示し、先行する大腸(“:”)は、この用語をキャプチャーとして指定する。 0.70
The query retrieves 1822 sentences which include the word Bactermia, the word treatment (added to establish a therapeutic context) and a CHEMICAL entity. クエリは、バクテリア(Bactermia)という言葉、治療コンテキストを確立するために付加された単語処理、および化学エンティティを含む1822の文を検索する。 0.60
The user interface also displays the ranked list of 406 different chemicals captured by the query variable. ユーザインターフェイスはまた、クエリ変数によってキャプチャされた406種類の化学物質のランクリストを表示する。 0.64
The researcher can click each one to inspect evidence for its association with Bacteremia, quickly arriving at a clean list of the common therapeutic compounds. 研究者は、それぞれをクリックして、細菌血症に関連する証拠を検査し、すぐに一般的な治療薬の清潔なリストに到達することができる。 0.59
Syntactic Extractive Search (“by example”). Syntactic Extractive Search (例)。 0.52
In the previous example, the capture slot was based on pre-annotated span level information (“named entities”). 以前の例では、キャプチャスロットは事前にアノテートされたスパンレベル情報(名前付きエンティティ)に基づいていた。 0.57
While very effective, it requires the entity type of interest to be pre-annotated, which 非常に効果的であるが、エンティティタイプの興味を事前に注釈付けする必要がある。 0.61
3https://www.healthl ine.com/health/bacte remia 3https://www.healthl ine.com/health/bacte remia 0.31
will likely not be the case for most entity types. ほとんどのエンティティタイプではそうはならないでしょう。 0.62
Additionally, the search is rather loose: it identifies any chemical in the same sentence of the terms “Bactermia” and “treatment”, but without establishing a semantic connection between them. さらに、この検索はややゆるい: “bactermia” と “treatment” の同じ文中の化学物質を識別するが、それらの間の意味的なつながりは確立しない。 0.78
What can we do when the entity type is not preannotated, or when we want to be more specific in our extraction target? エンティティタイプが事前アノテーションされていない場合や、抽出対象にもっと具体化したい場合、何ができますか? 0.64
One option is to define the capture slots using their syntactic sentential context. 一つの選択肢は、構文的センテンシャルコンテキストを使用してキャプチャスロットを定義することである。 0.49
For example, consider a researcher interested in risk factors of stroke. 例えば、脳卒中リスク因子に関心のある研究者を考える。 0.74
An example of this relation is given in the syntactic configuration: この関係の例を統語的構成で示します。 0.58
We can search for sentences that match this pattern,4 and extract the information which aligns with the capture node.5 However, such syntactic patterns require expertise to specify and are challenging to master. このパターンにマッチする文を検索し、キャプチャノードにマッチする情報を抽出することができるが、これらの構文パターンは特定する専門知識を必要とし、習得が困難である。 0.63
To counter this, Shlain et al (2020) introduced to SPIKE the notion of query by example: the user enters a sentence which demonstrates the configuration: “something is a risk factor of stroke”, marks which words are essential and should match exactly (risk, factor, stroke), and which correspond to capture slots (something), resulting in the query:6 これに対応するためにShlain et al (2020)は、SPIKEにクエリの概念を紹介した: ユーザは、構成を示す文を入力する: “何かがストロークの危険因子である”、どの単語が必須で、正確にマッチすべきかを示すマーク(リスク、要因、ストローク)、キャプチャスロットに対応するもの(何か)。 0.75
somethingARG is a risk factor for stroke somethingARGは脳卒中の危険因子である 0.74
The system then derives the corresponding syntactic query (see (Shlain et al , 2020) for the details), returning results like: “These cases illustrate that PXE is a rare but significant risk factor for small vessel disease and stroke in patients of all age groups.”, with the top aggregate terms being Hypertension, Artial fibrillation, AF, Diabetes, Obesity while less frequent terms include VZV reactivation and palmitic acid. このシステムは対応する構文クエリ(詳細はshlain et al , 2020)を導出し、以下の結果を返す: “これらのケースは、pxeが高血圧、関節細動、af、糖尿病、肥満、vzv再活性化、パルミチン酸を含む、すべての年齢群の小血管疾患や脳卒中に対する稀だが重要な危険因子であることを示している。 0.56
By modifying the query such that stroke is also marked as a capture slot: クエリを変更することで、ストロークもキャプチャスロットとしてマークされる。 0.60
somethingARG1 is a risk factor for strokeARG2 somethingARG1は脳梗塞の危険因子である 0.58
one could easily obtain a table of risk factors for various conditions. 様々な状況の危険因子の表を簡単に得ることができた。 0.68
4Potentially with additional restrictions such as the occur- 4 発生等の追加の制限を伴って 0.77
rence of other words, phrases or patterns in the document 文書中の他の単語、句またはパターンの良し悪し 0.80
5This mode of operation is facilitated also by, e g , the open-source toolkit Odinson (Valenzuela-Esc´arcega et al , 2020), and similar workflows are discussed by Akbik et al (2013); Hoffmann et al (2015). 例えば、オープンソースのツールキットOdinson (Valenzuela-Esc ́arcega et al , 2020) や、同様のワークフローは Akbik et al (2013), Hoffmann et al (2015) によって議論されている。 0.66
6In this paper, we avoid the exact SPIKE syntax, and use underlines to indicate named capture slots, and bolded words to indicate exact matches. 6)本論文では,SPIKEの正確な構文を避け,名前付きキャプチャスロットを示す下線と,正確な一致を示す大胆な単語を用いる。 0.73
The corresponding SPIKE query would be “(cid:104)(cid:105)AR G:something is a $risk $factor for $stroke”. SPIKE のクエリは "(cid:104)(cid:105)AR G:something is a $risk $factor for $stroke" である。 0.85
3 Neural Extractive Search The syntactic search by example lowers the barriers for IE: it easy to specify, accurate and effective. 3 Neural Extractive Search 例による構文検索はIEの障壁を低くする。
訳抜け防止モード: 3 ニューラルネットワーク抽出探索 例示による構文検索はieの障壁を低くする : 指定が簡単で、正確で、効果的です。
However, it is also limited in its recall: it considers only a specific configuration (both in terms of syntax and lexical items), and will not allow for alternations unless these are explicitly expressed by the user. ただし、リコールでは、特定の構成(構文と語彙項目の両方)のみを考慮し、ユーザが明示的に表現しない限り、交替を許さない、という制限もある。 0.60
Neural models, and in particular large pre-trained language models (Devlin et al , 2019; Beltagy et al , 2019), excel at this kind of fuzzier, less-rigid similarity matching. ニューラルモデル、特に大きな事前訓練された言語モデル(Devlin et al , 2019; Beltagy et al , 2019)では、この種のファジィでより厳密な類似性マッチングが優れている。 0.75
We show how to incorporate them in the extractive search paradigm. 抽出検索パラダイムにそれらを組み込む方法を示す。 0.59
This requires two stages: first, we need to match relevant sentences for a given query. まず、特定のクエリに対して関連する文をマッチングする必要があります。
訳抜け防止モード: これには2つの段階が必要です まず、あるクエリに関連する文にマッチする必要があります。
Second, we need to identify the relevant capture spans in the returned sentences. 第二に、返された文に含まれる関連するキャプチャスパンを識別する必要があります。 0.47
Crucially, this needs to be done in a reasonable time: we do not have the luxury of re-training a model for each query, nor can we afford to run a large neural model on the entire corpus for every query. 重要なことに、これは合理的な時間で行う必要がある。クエリ毎にモデルを再トレーニングするぜいたくはありませんし、クエリ毎にコーパス全体に対して大きなニューラルモデルを実行する余裕もありません。 0.68
We can afford to run a pre-trained model on the query sentence(s), as well as over each of the sentences in the result set (similar to neural-reranking retrieval models (Guo et al , 2020)). クエリ文(s)上で事前学習されたモデルを実行し、結果セット内の各文(ニューラルネットワークによる検索モデル(guo et al , 2020)に似ている)を実行することができる。 0.67
We operate under these constraints. 我々はこれらの制約の下で行動する。 0.46
The final system enables the user to search for specified information with minimal technical expertise. 最終システムは、ユーザーが最小限の技術的専門知識で特定の情報を検索できる。 0.73
We demonstrate this approach on the CORD corpus (Wang et al , 2020), a collection of research papers concerning the COVID-19 pandemic. 我々は、新型コロナウイルスのパンデミックに関する研究論文集であるCORDコーパス(Wang et al, 2020)で、このアプローチを実証する。 0.55
‘By-example” neural queries ニューラルネットワークのクエリを例示する 0.49
3.1 The core of the system is a “by-example” query, where the user enters a simple sentence expressing the relation of interest, and marks the desired capture roles on the sentence. 3.1 システムの中核は"by-example"クエリであり、ユーザは興味関係を表す単純な文を入力し、その文に所望のキャプチャロールをマークする。 0.72
To facilitate effective neural search based on the short example, we perform symbolic (syntactic) search that retrieves many real-world sentences following the syntactic pattern. 短い例に基づく効果的なニューラルネットワーク探索を容易にするために,構文パターンに従う多くの実世界文を検索するシンボリック(合成)検索を行う。 0.73
The result is a list of sentences that all satisfy the same relation, which are then combined and used as query to the neural retrieval system. その結果、全ての文が同じ関係を満足する文のリストとなり、それが結合され、ニューラル検索システムへのクエリとして使用される。 0.68
At neural alignment model is then used to align the role marking on the syntactically-retrie ved sentences, to corresponding roles on the neurallyretrieved sentences. 次に、ニューラルアライメントモデルを用いて、構文的に検索された文のロールマーキングを、ニューラルアライメントされた文の対応する役割に合わせる。 0.54
3.2 Pipeline Our system pipeline is summarized in Figure 2. 3.2 パイプライン 私たちのシステムパイプラインは図2にまとめられます。 0.63
It includes the following steps. Index Construction. 以下の手順がある。 インデックス構築。 0.62
Given a corpus D = {s1, s2, . 与えられたコーパス d = {s1, s2, . 0.66
. . , sn} of n sentences, we calculate a vec- . . n 個の文の sn} を計算し vec を計算する 0.79
Figure 2: The proposed pipeline, presented from top left clockwise. 図2: 提案するパイプラインは、左上から時計回りに表示されます。 0.67
Top: A simple symbolic query with two argument marks is provided. Top: 2つの引数マークを持つ単純なシンボリッククエリが提供される。 0.70
The query is executed, yielding accurate results that suffer from low recall. クエリは実行され、リコールの少ない正確な結果が得られる。 0.61
Those are encoded by BERT and used for k-NN query over a large set of pre-indexed vectors. これらはBERTによってエンコードされ、大量のプレインデックスベクタ上のk-NNクエリに使用される。 0.45
Bottom: The k-NN neural similarity search results in a diverse set of relevant sentences. Bottom: k-NNのニューラル類似性検索では,さまざまな関連文が検索されます。 0.67
An alignment model then predicts and annotates argument spans over the retrieved sentences, based on the symbolic query results. アライメントモデルは、シンボリッククエリ結果に基づいて、検索された文にまたがる引数を予測し、注釈付けする。 0.66
tor representation M (si) for each sentence using a neural model M, and index them to allow efficient search.7 ニューラルモデルMを用いて各文に対するトーラス表現M(si)をインデックス化し、効率的な検索を可能にする。 0.70
use Symbolic Query Encoding. 利用 シンボリッククエリエンコーディング。 0.66
We the syntactic-query capabilities of the SPIKE system to retrieve examples of natural sentences that convey the meaning the user aims to capture: we collect the first 75 results of a simple “by-example” syntactic query as described in §2—which often contain lexically-diverse, but semantically coherent, sentences—and average their BERT representations in order to get a single dense query vector (cid:126)hq. 我々は,SPIKEシステムの構文クエリ機能を用いて,ユーザが獲得しようとする意味を伝達する自然文の例を検索する。我々は,語彙的に異なるが意味的に一貫性のある文を含む,単純な"by-example"構文クエリの最初の75個の結果を収集し,そのBERT表現の平均値(cid:126)hqを得る。 0.76
The averaging helps focus the model on the desired semantic relation. 平均化はモデルが望ましい意味関係に焦点を合わせるのに役立つ。 0.71
Neural retrieval and ranking. ニューラル検索とランキング。 0.57
We perform dense retrieval for the query (cid:126)hq, with a k-NN search over the pre-indexed sentence representations. クエリ (cid:126)hq に対して,事前にインデックスされた文表現を k-NN で検索する。 0.71
These results are substantially more diverse than the initial set returned by the syntactic query. これらの結果は構文クエリによって返される初期セットよりもかなり多様である。 0.67
Argument Identification. We encode each retrieved sentence using (Sci)BERT, and use the alignment model described in Section 4 to align spans over the retrieved sentences to the captured spans in the symbolic result set. 議論の識別。 我々は, (Sci)BERTを用いて各検索文をエンコードし, 第4節で記述したアライメントモデルを用いて, 検索文のスパンをシンボル結果集合のキャプチャスパンにアライメントする。 0.68
The alignment 7Concretely, we encode each sentence in the CORD-19 corpus using the pre-trained SciBERT model (Beltagy et al , 2019), a BERT-based model (Devlin et al , 2019) trained on scientific text. アライメント 7concretelyでは,事前学習されたscibertモデル(beltagy et al, 2019),bertベースのモデル(devlin et al, 2019)を用いて,cord-19コーパスに各文をエンコードする。 0.51
We do not finetune the pre-trained model. 事前訓練されたモデルは微調整しません。 0.55
We represent each sentence by the [CLS] representation on layer12 of the model, and perform PCA to retain 99% of the variance, resulting in 601-dimensional vectors. 我々は,モデルの層12上の[CLS]表現で各文を表現し,分散の99%をPCAで保持し,601次元ベクトルを生成する。 0.81
To allow efficient search over the approximately 14M resulting dense vectors, we index them with FAISS (Johnson et al , 2017). 約14Mの高密度ベクトルを効率的に探索するために、FAISS (Johnson et al , 2017) でインデックス化する。 0.70
process operates over contextualized span representations, hopefully capturing both entity type and semantic frame information. processはコンテキスト化されたスパン表現上で動作し、エンティティタイプとセマンティックフレーム情報の両方をキャプチャする。 0.61
The system returns a syntactically and lexically diverse set of results, with marked capture spans. システムは、マークされたキャプチャスパンを持つ構文的および語彙的に多様な結果セットを返します。 0.63
4 Argument-identification via Alignment 4 アライメントによる引数識別 0.69
The dense neural retrieval over the averaged query vector results in topically-related sentences. 平均クエリベクトル上の高密度なニューラル検索は、トポロジカル関連文を生成する。 0.55
To obtain the full benefit of extractive search, we need to provide span annotations over the sentences. 抽出検索の完全な利益を得るためには,文章にスパンアノテーションを提供する必要がある。 0.76
This is achieved via a span alignment model which is trained to align semantically corresponding spans across sentences. これは、文間で意味的に対応するスパンをアライメントするように訓練されたスパンアライメントモデルによって達成される。 0.55
At query time, we apply this model to align the marked spans over the first syntactic-query result, to spans over the neurallyretrieved sentences. クエリ時に、このモデルを適用して、第1の構文検索結果のマークされたスパンを、ニューラルネットワークで検索された文のスパンに合わせる。 0.38
The alignment model is pre-trained over a diverse set of relation, with the intent of making it a general-purpose alignment model. アライメントモデルは、汎用アライメントモデルにすることを目的として、様々な関係のセットで事前訓練される。 0.73
We describe the model architecture, training data, and training procedure. 本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング手順について述べる。 0.71
task. The argument-alignment タスク。 argument‐alignment 0.49
The user marked in the query q a two spans, denoted as ARG1 and ARG2. クエリqにマークされたユーザは2つのスパンで、arg1とarg2と表記される。 0.47
Given a sentence (a dense retrieval result) with n tokens s = w1, ..., wn, we seek a consecutive sequence of tokens wi:j corresponding to ARG1, and another consecutive sequence of tokens wk:(cid:96) corresponding to ARG2. n 個のトークン s = w1, ..., wn を持つ文(高密度検索結果)が与えられると、arg1に対応するトークン wi:j の連続列と、arg2に対応するトークン wk:(cid:96) の連続列を求める。
訳抜け防止モード: n 個のトークン s = w1 の文(高密度検索結果 )が与えられる。 ...,wn, we seek a series of tokens wi : j corresponding to ARG1, また、ARG2 に対応するトークン wk:(cid:96 ) も連続する。
For example, consider the query: 例えば、クエリを考えてみましょう。 0.68
virusARG1 infection causes a conditionARG2 virusarg1感染は conditionarg2 を引き起こす 0.58
In which the span ARG1 corresponds to a kind of infection, and ARG2 corresponds to the outcome of the infection. ARG1は感染の種類に対応し、ARG2は感染の結果に対応する。 0.60
The syntactic query may return a result such as: The feverARG2. 構文的クエリは以下の結果を返すことができる。 0.55
While a neural result might be: 神経の結果は次のようになるかもしれない。 0.47
infection causes of 感染 原因 ですから 0.65
It has been noted that headaches are one side 頭痛は片側にあることが指摘されている。 0.64
effect of Flu infection. We would like to align Flu to ARG1 (SARS-COV2) and headaches to ARG2 (fever). Flu感染の影響。 FluをARG1(SARS-COV2)に、頭痛をARG2(fever)に合わせたいと思っています。 0.60
Training and evaluation data creation. トレーニングと評価データの作成。 0.81
To train an alignment model in a supervised setting, we need a training set that consists of pairs of sentences, both corresponding to the same relation, with arguments marked only on the first sentence. 教師付き設定でアライメントモデルを訓練するには、同じ関係に対応する2つの文からなるトレーニングセットと、最初の文のみに引数をマークするトレーニングセットが必要である。 0.71
We use SPIKE for the generation of this dataset. このデータセットの生成にはSPIKEを使用します。 0.73
We introduce a resource that contains 440 manually-curated SPIKE queries in the biomedical domain, divided into 67 unique relations, s.t. バイオメディカル領域において, 440個のSPIKEクエリを手作業で処理し, 67個のユニークな関係, s。 0.67
each relation is expressed via at least 2 syntacticallydistinc t queries. 各関係は、少なくとも2つの構文的に異なるクエリを介して表現される。 0.45
For instance, for the relation molecules and their chemical derivatives, we include the following patterns, among others: - SomethingARG1, a PurineARG2 derivative. 例えば、関係分子とその化学誘導体については、以下のパターンを含む: - somethingARG1、PurineARG2誘導体。 0.66
- SomethingARG1, a derivative of PurineARG2. -PurineARG2の派生種であるARG1。 0.66
- PurineARG1 derivative such as somethingARG2. - somethingARG2 のような PurineARG1 誘導体。 0.69
We ran each SPIKE query, collect the results, and then construct a dataset that consists of randomlysampled pair of results (sR 2 ) for each relation R of the 62 relations. 各SPIKEクエリを実行し、結果を収集し、62の関係R毎にランダムにサンプリングされた結果(sR2)からなるデータセットを構築した。 0.74
This process resulted in a training set of 95,000 pairs of sentences, and a development set of 15,000 pairs of sentences, where each sentence has marked argument spans.8 Model architecture and training. このプロセスの結果、95,000対の文のトレーニングセットと15,000対の文の開発セットとなり、各文は引数を表わす.8のモデルアーキテクチャとトレーニングを持つようになった。 0.74
We adopt a contrastive finetuning approach for the argument alignment task (Figure 3). 我々は、引数アライメントタスクに対して、対照的な微調整アプローチを採用する(図3)。 0.63
In training, the model is fed with two sentences s1 and s2, belonging to the same relation. トレーニングでは、モデルは同じ関係に属する2つの文 s1 と s2 が供給される。 0.82
On one of the sentences, we mark the argument spans using special ARG tokens. 文の1つに、特別なARGトークンを用いて引数スパンをマークする。 0.62
We derive contextualized representations of all consecutive spans of tokens, and contrastively train the matching spans to be more similar to each other than to any other span. トークンの連続したスパンの文脈化表現を導出し、マッチングスパンが他のスパンよりも互いに類似するように対照的に訓練する。 0.66
1 , sR 8We focused our efforts on maintaining high syntactic diversity alongside high topical relevance for each relation, and aimed for the patterns to cover a large set of biomedical relations. 1, sR 8我々は,各関係の話題的関連性と高い構文的多様性の維持に重点的に取り組むとともに,生物医学的関係の大規模な集合をカバーするパターンを目標とした。 0.76
The relations in the development set are randomly chosen subset of all relations, and are disjoint from the relations included in the training set. 開発セット内の関係は、ランダムに選択されたすべての関係のサブセットであり、トレーニングセットに含まれる関係とは相容れない。 0.69
Figure 3: Illustration of the argument-alignment model. 図3: 引数アライメントモデルの図示。 0.70
We choose corresponding arguments (“many disorders” and “cytokine storm”) from the two sentences. 2つの文から対応する議論(「多くの障害」と「サイトカイン嵐」)を選択する。 0.60
We represent all possible spans of words, and choose the negative example to be the closest wrong span under euclidean distance (here, “heart damage”). 私たちは全ての可能な単語のスパンを表現し、ユークリッド距離において最も近い間違ったスパンとなる否定的な例を選択する(ここでは「心の損傷」)。
訳抜け防止モード: 我々は全ての可能な単語を表現し、否定的な例を選択する ユークリッド距離の下の最も間違った範囲(ここでは「心臓の損傷」)である。
The triplet objective encourages the corresponding argument to be closer to each other than to the wrong span. 三重項の目的は、対応する引数が間違ったスパンよりも互いに近いことを奨励する。 0.71
We begin with the pretrained SciBERT model, with an additional linear layer that maps the representations to dimensionality of 64. 事前訓練されたSciBERTモデルから始め、表現を64の次元にマッピングする線形層を追加します。 0.73
On each training iteration we feed to the model the two sentences with arguments marked on one of them, and collect the last-hidden-layer-re presentations of all tokens. 各トレーニングイテレーションでは、2つの文に1つにマークされた引数を付けてモデルにフィードし、すべてのトークンの最後の階層表現を収集します。 0.70
Then, we construct the representations of the two arguments in the first sentence, (cid:126)hs1 arg2, by averaging the BERT representations of the tokens included in those spans. そして、それらのスパンに含まれるトークンのBERT表現を平均化することにより、最初の文(cid:126)hs1 arg2)で2つの引数の表現を構築する。 0.62
We similarly construct representations of all possible consecutive spans of tokens up to length 9 in the second sentence. 同様に、第2文の9までの長さまでのトークンの連続的なスパンの表現も構築する。 0.70
The “hardest” negative spans are identified: those are (cid:126)hs2,− the two representations arg2, which do not correspond to the captures in the first sentence, yet are most similar to them by euclidean distance. 最も難しい」負のスパンは (cid:126)hs2,− 2つの表現 arg2 であり、最初の文のキャプチャに対応していないが、ユークリッド距離でそれらと最も似ている。 0.65
Those are pushed away using a triplet loss objective (Schultz and Joachims, 2003; Chechik et al , 2010): L = max(0,||(cid:126)hs1 arg1||+α) And similarly for arg2. これらは三重項損失目標(schultz and joachims, 2003; chechik et al , 2010): l = max(0,||(cid:126)hs1 arg1||+α)を用いて押し下げられる。 0.76
This objective encourages the gold span in s1 to be closer to the gold span s2 than to any other span, with a margin of at least α; we take α = 1 and train for 50 epochs with the Adam optimizer (Kingma and Ba, 2015). この目的により、s1 の金のスパンは他のスパンよりも金のスパン s2 に近いことが奨励され、少なくとも α のマージンを持ち、α = 1 を取り、アダムオプティマイザ (kingma and ba, 2015) で50エポックのトレーニングを行う。 0.65
arg1||−||(cid:126)hs1 arg1||−||(cid:126)hs1 0.47
arg1− (cid:126)hs2,− arg1− (cid:126)hs2,− 0.78
(cid:126)hs2,− arg1 and (cid:126)hs2,− arg1, 0.82
arg1 and (cid:126)hs1 arg1 と (cid:126)hs1 0.73
arg1−(cid:126)hs2 arg1−(cid:126)hs2 0.64
In inference time, we take s1 to be an arbitrary (single) result of the syntactic query, and take s2 to be any of the neural search results. 推測時間において、s1 を構文クエリの任意の(単一)結果とし、s2 を神経検索結果のいずれかとする。 0.60
For each s2, we collect the spans having the least distance to the spans in s1 (as provided by the SPIKE system). 各 s2 に対して、s1 のスパンに最も近いスパン(SPIKE システムによって提供される)を収集する。 0.60
5 Evaluation Retrieval quality. 5 検索品質の評価。 0.72
To simulate a real-world extraction scenarios, we randomly chose 11 types 実世界の抽出シナリオをシミュレートするため、ランダムに11種を選択した。 0.60
Relation Disease-duration Lacunas in knowledge Conditions without risk Isolation place Percentage asymptomatic Symptoms Potential treatment Immunutherapies and diseases Persistence-place Pretreatments Involved organs リスク隔離場所のない知識条件における病原性病変の頻度 免疫療法の可能性と疾患関連前処置 0.76
% Relevant 25.000 100.000 77.273 100.000 9.091 85.000 95.455 86.364 82.609 54.545 77.273 % Relevant 25.000 100.000 77.273 100.000 9.091 85.000 95.455 86.364 82.609 54.545 77.273 0.46
Table 1: Relevance scores (manual) by relation type. 表1:関係型による関連性スコア(手動)。 0.79
of relation not included in the training set, with one randomly-selected syntactic pattern per relation. 訓練セットに含まれない関係について、関係ごとにランダムに選択された構文パターンがある。 0.56
We augmented those patterns, and collected the 10 top-ranked augmented results, as well the 10 results ranked in places 90-100. これらのパターンを拡張して、上位10の拡張現実結果と、90~100位にランクされた10の結果を収集した。 0.62
We manually evaluated the relevancy of the 20 results per relation, resulting in 240 test sentences in total. 本研究は, 関係関係20項目の関連性を手作業で評価し, 合計240の試験文が得られた。 0.61
In case they were relevant, we also marked the capture spans. 関連がある場合、キャプチャスパンもマークしました。 0.43
Results. Overall, 72.2% of the results were relevant to the relation, with 75.0% relevant in the top-10 group and 69.5% relevancy in the sentences ranked 90-100. 結果。 全体では72.2%が関係に関連し、75.0%がトップ10群に関連し、69.5%が90-100にランクされた。 0.64
In Table 1 with provide the results per relation. 表1では、関係ごとの結果を示します。 0.71
Relevancy is not uniform across relations: certain relations focusing on numerical information – such as duration of a disease and percentage of asympotatmic cases in a disease had very low accuracy: the results often focused on similar but different numerical information such as “The median time to the onset of the infection was 95 days” for duration of a disease, and “Between 10 % and 20 % of the world population is infected each year by the influenza virus” for percentage of asympotatmic cases. Relevancy is not uniform across relations: certain relations focusing on numerical information – such as duration of a disease and percentage of asympotatmic cases in a disease had very low accuracy: the results often focused on similar but different numerical information such as “The median time to the onset of the infection was 95 days” for duration of a disease, and “Between 10 % and 20 % of the world population is infected each year by the influenza virus” for percentage of asympotatmic cases. 0.87
In contrast, for the others relations, many of the results are relevant, and are characterized by high syntactic diversity, generalizing beyond the syntactic structure of the original symbolic query. 対照的に、他の関係では、結果の多くは関連性があり、元のシンボリッククエリの構文構造を超えて一般化された高い構文多様性によって特徴づけられる。 0.59
Alignment quality. アライメントの品質。 0.67
To evaluate the quality of the alignment, we generate a test set from the 240 manually-annotated sentences mentioned above, by randomly sampling 1,240 pairs of sentences that belong to the same relation, and are both relevant. このアライメントの質を評価するために,同じ関係に属する1,240対の文をランダムにサンプリングすることにより,上記の240個の手書き注釈文からテストセットを生成する。 0.77
We keep the gold argument marking on the first sentence, omit it from the second, and have the model predict the corresponding captures. 我々は、第1文に金の引数をマークし、第2文から省略し、モデルに対応するキャプチャーを予測する。 0.73
As evaluation measure, we calculate the percentage of cases where the gold argument are a subset of the 評価尺度として、金の引数がサブセットである場合の比率を計算する。 0.62
spreads by potential treatment risk factor 治療リスクファクターによって広がる 0.69
SPIKE #Caputres %Accuracy 5 14 57 SPIKE #Caputres %Accuracy 5 14 57 0.85
83% 80% 89% 83% 80% 89% 0.85
Neural Extractive Search #Caputres %Accuracy 40 55 44 Neural Extractive Search #Caputres %Accuracy 40 55 44 0.85
96% 67.6% 83% 96% 67.6% 83% 0.92
Table 2: Comparing result count and accuracy between symbolic and neural extractive search 表2:シンボルとニューラル抽出の検索結果数と精度の比較 0.78
predicted arguments, or vice verca. 予測された議論 または バイス・ヴェルカ 0.61
Results. In total, 73.8% of the arguments are aligned correctly. 結果。 合計73.8%の議論が正しく一致している。 0.66
When considering only cases where both arguments were correctly aligned as a success, accuracy drops to 58%. 両方の引数が正しく一致した場合にのみ考慮すると、精度は58%に低下する。 0.69
Note, however, that the captures are often multi-word expressions, and the choice of span boundaries is somewhat arbitrary, and does not take into account conjunctions or cases where possible distinct spans can be regarded as corresponding to a capture in the first sentence, and multiple valid captures that often exist within a single sentence. しかしながら、キャプチャはしばしばマルチワード表現であり、スパン境界の選択は幾らか任意であり、最初の文のキャプチャに対応できるような結合や異なるスパンの可能なケースを考慮しておらず、単一の文内にしばしば存在する複数の有効なキャプチャを考慮しない点に注意が必要である。 0.69
Comparison with symbolic extractive search. 記号抽出検索との比較 0.66
How do the results of the neural extractive search differ from the results of directly applying a symbolic rule based solution? ニューラル抽出探索の結果は,記号規則に基づく解を直接適用した結果とどのように異なるのか? 0.80
To compare the systems we choose another 3 development relations, “is a risk factor for COVID-19”, “COVID-19 spreading mechanisms” and “potential treatment for COVID19”. システムを比較するために、私たちは、“COVID-19のリスクファクタ”、“COVID-19の拡散メカニズム”、“COVID19の潜在的治療”という3つの開発関係を選択します。 0.61
For each of these relations we try out 2-3 syntactic SPIKE queries and choose the best one as a representative query. これらの関係について、2-3の構文SPIKEクエリを試し、最もよいクエリを代表クエリとして選択します。
訳抜け防止モード: これらの関係について 2 - 3 の構文SPIKE クエリを試す。 代表的なクエリとしてベストを選択します。
We then use the query as input for both SPIKE and for neural search . 次に、SPIKEとニューラルサーチの両方の入力としてクエリを使用します。 0.64
As shown in Table 2, for two of the three relations, spread by and potential treatment, neural search has been effective in significantly improving recall while maintaining relatively high precision. 表2に示すように、3つの関係のうち2つは、拡散と潜在的治療により、ニューラルサーチは比較的高精度を維持しながらリコールを大幅に改善する効果がある。 0.65
For the third relation, risk-factor, neural search did not show benefit but did not lag far behind. 第3の関係、リスクファクター、ニューラル検索は利益を示さなかったが、それほど遅れなかった。 0.69
We hypothesize that this is due to this relation appearing many times in the data and in less diverse ways compared to the other relations, allowing a symbolic pattern to accurately extract it. これは、この関係がデータに何度も現れることと、他の関係と比べて多様性が低いことによるものであり、シンボルパターンが正確にそれを抽出できるという仮説を立てる。
訳抜け防止モード: これはデータに何度も現れる この関係によるものだと仮定します 他の関係と比べて 多様性に欠けるのです シンボルパターンを正確に抽出できるようにします。
Importantly, these data suggest that the neural search system is less sensitive to the exact relation and query used and that in some cases it also significantly improves performance. これらのデータは、ニューラルネットワークが使用する正確な関係やクエリに敏感でないことを示唆し、場合によっては性能も著しく向上する。
訳抜け防止モード: 重要なのは これらのデータは ニューラルサーチシステムは、使用する正確な関係とクエリに対する感度が低い また、パフォーマンスが大幅に向上する場合もある。
6 Example Search We demonstrate the system via an example where one aims to find sentences containing information on compounds and their origin (e g plant-derived, isolated from soil, etc.). 6例の検索 本研究では, 化合物とその起源(植物由来, 土壌由来など)に関する情報を含む文を見つけることを目的とした実例を用いて, 本システムを実証する。 0.78
We start with the query: まずクエリから始めます 0.48
SomethingA1 is a drug extracted from plantsA2. somethingA1は植物A2から抽出される薬物である。 0.64
The syntactic yields only few results, all of them are relevant. 構文はわずかな結果しか得られず、それらはすべて関連している。 0.50
Among the results: -Colchicine is a drug extracted from Colchicum autumnale. ColchicineはColchicum autumnaleから抽出された薬物である。 0.66
-Berbamine is an experimental drug extracted from a shrub native to Japan, Korea, and parts of China -Taxol, isolated from Taxomyces andreanae , is the most effective and successful anticancer drug extracted from endophytic fungi to date . -ベルバミン(berbamine)は、日本、韓国、中国の一部の低木から抽出される実験薬で、タキソールは内生菌類から抽出された最も効果的で成功した抗がん剤である。 0.60
Figure 1 shows the output (top results) of the neural system. 図1は、ニューラルネットワークの出力(トップ結果)を示しています。 0.66
The neural results are notably more diverse. 神経系の結果はより多様である。 0.74
While the syntactic results follow the pattern “X extracted from Y”, the neural results are both lexically and syntactically diverse: the explicit descriptor “a drug” is absent at times; the verbal phrase “extracted from [a plant]” is sometimes replaced with the paraphrases “found in [a plant]” and “[is a] botanical extract”; and the third result contains an unreduced relative clause structure. 構文的結果が「Yから抽出されたX」のパターンに従う一方で、神経的結果は語彙的にも構文的にも多様である: 明示的な記述子「薬」が時々欠落する; 「植物から抽出された」という動詞句を「植物から抽出された」というパラフレーズに置き換える; 「植物から抽出された」、および「植物から抽出された」という3番目の結果を含む。 0.72
Several additional results are presented below: - Allicin is the major biologically active component of garlic. 以下のいくつかの追加の結果が示される: -アリシンはニンニクの主要な生物学的活性成分である。 0.64
- Berberine is an isoquinoline alkaloid that has been isolated from Berberis aquifolium. -ベルベリンはベルベリス・アキフォリウムから単離されたイソキノリンアルカロイドである。 0.54
- Phillyrin ( Phil ) , the main pharmacological component of Forsythia suspensa, possesses a wide range of pharmacological activities . --Phillyrin (Phil )はForsythia suspensaの主要な薬理学的成分であり、幅広い薬理学的活性を有する。 0.74
- Dimethyl cardamonin ( DMC ) is the active compound isolated from the leaves of Syzygium samarangense. -ジメチルカルダモニン(ジメチルカルダモニン、DMC)は、Syzygium samarangenseの葉から単離される活性化合物である。 0.74
- Triostin is a well-known natural product with antibiotic , antiviral, and antitumor activities . -トリオスチンは抗生物質、抗ウイルス、抗腫瘍活性を有する天然物としてよく知られている。 0.58
Note that the last two examples demonstrate failure modes: in the the fourth example, the model failed to identify Dimethyl cardamonin as an argument; and in the last sentence there is no clear capture corresponding to the second argument. 最後の2つの例は障害モードを示しており、第4の例ではディメチルカルダモニンを引数として特定できず、最後の文では第2の引数に対応する明確なキャプチャは存在しない。 0.74
Finally, we perform an aggregation over the predicted captures (Fig 1, right-pane), allowing the user to quickly get a high-level overview of the interactions. 最後に、予測したキャプチャ(図1、右ペイン)上でアグリゲーションを行い、ユーザが対話の概要を素早く把握できるようにします。 0.64
From our experience, users are mostly interested in this table, and turn to the text as support for validating interesting findings. 私たちの経験では、ユーザは主にこのテーブルに興味を持ち、興味深い発見を検証するためのサポートとしてテキストに目を向けています。 0.60
7 Limitations of the neural approach While we find the neural approach to be very effective, we would also like to discuss some of its limitations. 7 神経アプローチの限界 神経アプローチが非常に効果的であることは分かっていますが、いくつかの制限についても議論したいと思います。 0.67
First, speed and scalability are still lagging behind that of symbolic search systems: dense retrieval systems do not yet scale as well as symbolic 第一に、スピードとスケーラビリティはシンボリック検索システムよりまだ遅れている:密度の高い検索システムは、シンボリック検索システムほどスケールしていない。 0.63
ones, and running the (Sci)BERT-base argumentaligner for each candidate sentence is significantly slower than performing the corresponding similarity search. 候補文ごとに (sci)bert-base argumentaligner を実行すると、対応する類似性探索を行うよりもかなり遅い。 0.70
While the user can see the first results almost immediately, getting extractions from thousands of sentences may take several minutes. ユーザはすぐに最初の結果を見ることができますが、何千もの文から抽出されるには数分かかります。 0.69
We hope to improve this speed in future work. 今後の作業でこのスピードを向上したいと考えています。 0.58
In terms of accuracy, we find the system to be hit-or-miss. 精度に関して言えば、システムはヒットまたはミスである。 0.66
For many symbolic queries we get fantastic resutls, while for others we observe failures of the dense retrieval model, or frequent failures of the alignment model, or both. 多くのシンボリッククエリに対して素晴らしいリシャートを得る一方で、高密度検索モデルの失敗、アライメントモデルの頻繁な失敗、あるいはその両方を観察する。 0.64
For effective incorporation in a user-facing system, we should—beyond improvements in retrieval and alignment accuracy— be able to predict which queries are likely to yield poor results, and not extend them with fuzzy neural matches. ユーザ側のシステムに効果的に組み込むためには、検索とアライメント精度の改善に加えて、どのクエリが貧弱な結果をもたらすかを予測し、ファジィなニューラルマッチで拡張しなければなりません。
訳抜け防止モード: 利用者の効果的な法人化に向けて- 対向システム 検索とアライメントの精度が向上するだけでなく どのクエリが悪い結果をもたらすか予測し ファジィなニューラルマッチで拡張しません
8 Conclusions We presented a system for neural extractive search. 8 結論 神経抽出検索システムについて紹介した。 0.72
While we found our system to be useful for scientific search, it also has clear limitations and areas for improvement, both in terms of accuracy (only 72.2% of the returned results are relevant, both the alignment and similarity models generalize well to some relations but not to others), and in terms of scale. 我々のシステムは科学的検索に有用であることがわかったが、精度の面では明らかな限界と改善の領域がある(返された結果の72.2%しか関係がなく、アライメントと類似性の両方がある程度の相関関係によく当てはまるが、他の関係には当てはまらない)。 0.75
We see this paper as a beginning rather than an end: we hope that this demonstration will inspire others to consider the usefulness of the neural extractive search paradigm, and develop it further. 我々は、この論文が終わりではなく始まりであると考えている。このデモンストレーションが、神経抽出探索パラダイムの有用性を他人に考慮させ、さらに発展させることを願っている。
訳抜け防止モード: 私たちはこの論文を終わりではなく始まりと見なしている このデモがきっかけになり 神経抽出探索パラダイムの有用性を考慮し、さらに発展させるものもあります。
Acknowledgements This project received funding from the Europoean Research Council (ERC) under the Europoean Union’s Horizon 2020 research and innovation programme, grant agreement No. 覚書 このプロジェクトは、欧州連合のhorizon 2020 research and innovation program, grant agreement no.のもと、欧州研究評議会(erc)から資金提供を受けた。 0.60
802774 (iEXTRACT). 802774 (iEXTRACT)。 0.80
References Alan Akbik, Oresti Konomi, and Michail Melnikov. Alan Akbik、Oresti Konomi、Michail Melnikovなどを参照。 0.68
2013. Propminer: A workflow for interactive information extraction and exploration using dependency trees. 2013. Propminer: 依存性ツリーを使用したインタラクティブな情報抽出と探索のためのワークフロー。 0.75
In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 157–162. 第51回計算言語学会年次大会: System Demonstrations, page 157–162 0.54
Iz Beltagy, Kyle Lo, and Arman Cohan. Iz Beltagy、Kyle Lo、Arman Cohan。 0.58
2019. Scibert: A pretrained language model for scientific text. 2019. Scibert: 科学テキストのための事前訓練された言語モデル。 0.79
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP 2019, Hong 第9回自然言語処理に関する国際会議(EMNLP-IJCNLP 2019, Hong)に参加して
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議 EMNLP - IJCNLP 2019, Hong
Marco A Valenzuela-Esc´arcega, Gus Hahn-Powell, and Dane Bell. Marco A Valenzuela-Esc ́arcega, Gus Hahn-Powell, Dane Bell 0.77
2020. Odinson: A fast rule-based information extraction framework. 2020. Odinson: 高速なルールベースの情報抽出フレームワークです。 0.78
In Proceedings of the 12th Language Resources and Evaluation Conference, pages 2183–2191. 第12回言語資源・評価会議では2183-2191頁。 0.67
Lucy Lu Wang, Kyle Lo, Yoganand Chandrasekhar, Russell Reas, Jiangjiang Yang, Darrin Eide, Kathryn Funk, Rodney Kinney, Ziyang Liu, William Merrill, Paul Mooney, Dewey Murdick, Devvret Rishi, Jerry Sheehan, Zhihong Shen, Brandon Stilson, Alex D. Wade, Kuansan Wang, Chris Wilhelm, Boya Xie, Douglas Raymond, Daniel S. Weld, Oren Etzioni, and Sebastian Kohlmeier. Lucy Lu Wang, Kyle Lo, Yoganand Chandrasekhar, Russell Reas, Jiangjiang Yang, Darrin Eide, Kathryn Funk, Rodney Kinney, Ziyang Liu, William Merrill, Paul Mooney, Dewey Murdick, Devvret Rishi, Jerry Sheehan, Zhihong Shen, Brandon Stilson, Alex D. Wade, Kuansan Wang, Chris Wilhelm, Boya Xie, Douglas Raymond, Daniel S. Weld, Oren Etzioni, Sebastian Kohlmeier 0.84
2020. CORDthe covid-19 open research dataset. 2020. CORD The covid-19 open research data 0.84
CoRR, 19: abs/2004.10706. CoRR, 19: abs/2004.10706。 0.68
Kong, China, November 3-7, 2019, pages 3613– 3618. 中国、香港、2019年11月3日、3613-3618頁。 0.65
Association for Computational Linguistics. Gal Chechik, Varun Sharma, Uri Shalit, and Samy Bengio. 計算言語学会会員。 Gal Chechik, Varun Sharma, Uri Shalit, Samy Bengio 0.59
2010. Large scale online learning of image similarity through ranking. 2010. ランキングによる画像類似性の大規模オンライン学習 0.82
J. Mach. Learn. J. Mach 学ぶ。 0.72
Res., 11:1109–1135. 11:1109-1135参照。 0.53
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. BERT: pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. bert: 2019年のカンファレンススタンディングでは、言語のための深い双方向トランスフォーマーを事前トレーニングしています。 0.72
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), pages 4171–4186. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019, Minneapolis, MN, USA, June 2-7, 2019, Volume 1 (Long and Short Papers), page 4171–4186. 0.93
Association for Computational Linguistics. Jiafeng Guo, Yixing Fan, Liang Pang, Liu Yang, Qingyao Ai, Hamed Zamani, Chen Wu, W Bruce Croft, and Xueqi Cheng. 計算言語学会会員。 Jiafeng Guo, Yixing Fan, Liang Pang, Liu Yang, Qingyao Ai, Hamed Zamani, Chen Wu, W Bruce Croft, Xueqi Cheng 0.62
2020. A deep look into neural ranking models for information reInformation Processing & Management, trieval. 2020. 情報再情報処理と管理のためのニューラルネットワークランキングモデル、Trieval。 0.72
57(6):102067. 57(6):102067. 0.97
R. Hoffmann, Luke Zettlemoyer, and Daniel S. Weld. R・ホフマン、ルーク・ツェルモイヤー、ダニエル・S・ウェルド。 0.46
2015. Extreme extraction: Only one hour per relation. 2015. 極端抽出: 関係につき1時間のみ。 0.77
ArXiv, abs/1506.06418. ArXiv, abs/1506.06418。 0.59
Jeff Johnson, Matthijs Douze, and Herv´e J´egou. Jeff Johnson, Matthijs Douze, and Herv ́e J ́egou 0.87
2017. Billion-scale similarity search with gpus. 2017. gpusによる数十億ドル規模の類似検索。 0.71
CoRR, abs/1702.08734. CoRR, abs/1702.08734。 0.59
Diederik P. Kingma and Jimmy Ba. dieerik p. kingmaとjimmy ba。 0.75
2015. Adam: A In 3rd Intermethod for stochastic optimization. 2015. adam: 確率最適化のための第3のインターメソッド。 0.75
national Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. national conference on learning representations, iclr 2015, san diego, ca, usa, may 7-9, 2015 conference track proceedings (英語) 0.83
Matthew Schultz and Thorsten Joachims. マシュー・シュルツとトルステン・ヨアヒムズ。 0.53
2003. Learning a distance metric from relative comparisons. 2003. 相対比較から距離メートル法を学ぶ。 0.80
In Advances in Neural Information Processing Systems 16 [Neural Information Processing Systems, NIPS 2003, December 8-13, 2003, Vancouver and Whistler, British Columbia, Canada], pages 41–48. In Advances in Neural Information Processing Systems 16 [Neural Information Processing Systems, NIPS 2003, December 8-13, 2003, Vancouver and Whistler, British Columbia, Canada, 41-48]. 0.88
MIT Press. Micah Shlain, Hillel Taub-Tabib, Shoval Sadde, and Yoav Goldberg. MIT出版。 Micah Shlain、Hillel Taub-Tabib、Shoval Sadde、Yoav Goldberg。 0.72
2020. Syntactic search by example. 2020. 例による構文検索。 0.77
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL 2020, Online, July 5-10, 2020, pages 17–23. The 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL 2020, Online, July 5-10, 2020, pages 17–23。 0.85
Association for Computational Linguistics. Hillel Taub-Tabib, Micah Shlain, Shoval Sadde, Dan Lahav, Matan Eyal, Yaara Cohen, and Yoav GoldInteractive extractive search over berg. 計算言語学会会員。 Hillel Taub-Tabib, Micah Shlain, Shoval Sadde, Dan Lahav, Matan Eyal, Yaara Cohen, Yoav GoldInteractive extractive search over berg。 0.68
2020. In Proceedings of the 19th biomedical corpora. 2020. 第19回生物医学コーパス会議に出席。 0.72
SIGBioMed Workshop on Biomedical Language Processing, BioNLP 2020, Online, July 9, 2020, pages 28–37. SIGBioMed Workshop on Biomedical Language Processing, BioNLP 2020, Online, July 9, 2020, page 28-37。 0.88
Association for Computational Linguistics. 計算言語学会会員。 0.52

翻訳にはFugu-Machine Translatorを利用しています。