論文の概要: The Inefficiency of Language Models in Scholarly Retrieval: An
Experimental Walk-through
- arxiv url: http://arxiv.org/abs/2203.15364v1
- Date: Tue, 29 Mar 2022 09:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 02:34:17.680918
- Title: The Inefficiency of Language Models in Scholarly Retrieval: An
Experimental Walk-through
- Title(参考訳): 学術的検索における言語モデルの非効率性:実験的ウォークスルー
- Authors: Shruti Singh and Mayank Singh
- Abstract要約: 本稿では,短文処理における科学言語モデルの評価を行う。
我々は、元のテキストに小さな摂動によって生成されたテキスト隣り合いを活用し、すべての摂動が埋め込み空間に近接する隣人をもたらすわけではないことを実証する。
検索性能はテキストのセマンティクスよりも表面形状の影響を受けやすいことが判明した。
- 参考スコア(独自算出の注目度): 1.6217950238586523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are increasingly becoming popular in AI-powered scientific IR
systems. This paper evaluates popular scientific language models in handling
(i) short-query texts and (ii) textual neighbors. Our experiments showcase the
inability to retrieve relevant documents for a short-query text even under the
most relaxed conditions. Additionally, we leverage textual neighbors, generated
by small perturbations to the original text, to demonstrate that not all
perturbations lead to close neighbors in the embedding space. Further, an
exhaustive categorization yields several classes of orthographically and
semantically related, partially related, and completely unrelated neighbors.
Retrieval performance turns out to be more influenced by the surface form
rather than the semantics of the text.
- Abstract(参考訳): 言語モデルは、AIを使った科学IRシステムでますます人気が高まっている。
本稿では,一般的な科学的言語モデルについて評価する。
(i)短文及び
(ii)テキストの隣人。
実験では,最もリラックスした条件下であっても,関連文書を短時間で検索できないことを示した。
さらに、元のテキストに小さな摂動によって生成されたテキスト隣り合いを利用して、すべての摂動が埋め込み空間に近接した隣人をもたらすわけではないことを示す。
さらに、排他的分類は、直交的かつ意味的に関連し、部分的に関連し、完全に無関係な近傍のいくつかのクラスを与える。
検索性能はテキストのセマンティクスよりも表面形状の影響を受けやすいことが判明した。
関連論文リスト
- Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。
知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文 参考訳(メタデータ) (2024-10-19T13:59:48Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for
Interdisciplinary Science [0.0]
大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。
Retrieval augmentationは、外部の知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。
本稿では,検索強化時に文書構造に対応する構造対応検索言語モデルを提案する。
論文 参考訳(メタデータ) (2023-11-21T02:02:46Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with
Controllable Perturbations [2.041108289731398]
近年の研究では、テキスト摂動の概念を中心とした新しい実験分野が採用されている。
近年の研究では、シャッフル語順がトランスフォーマーベースの言語モデルの下流性能にほとんど影響しないことが明らかになっている。
論文 参考訳(メタデータ) (2021-09-28T20:15:29Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。