論文の概要: ANALOGICAL -- A Novel Benchmark for Long Text Analogy Evaluation in
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.05050v3
- Date: Thu, 25 May 2023 20:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 20:04:54.556093
- Title: ANALOGICAL -- A Novel Benchmark for Long Text Analogy Evaluation in
Large Language Models
- Title(参考訳): analogical --大規模言語モデルにおける長文アナロジー評価のための新しいベンチマーク
- Authors: Thilini Wijesiriwardene, Ruwan Wickramarachchi, Bimal G. Gajera,
Shreeyash Mukul Gowaikar, Chandan Gupta, Aman Chadha, Aishwarya Naresh
Reganti, Amit Sheth, Amitava Das
- Abstract要約: ANALOGICALは、大規模言語モデルを本質的に評価する新しいベンチマークである。
以上の結果から, LLM が類型分類に進出する際, 類型分類を識別することがますます困難になっていることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.4546044532817048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, analogies, in the form of word-level analogies, have
played a significant role as an intrinsic measure of evaluating the quality of
word embedding methods such as word2vec. Modern large language models (LLMs),
however, are primarily evaluated on extrinsic measures based on benchmarks such
as GLUE and SuperGLUE, and there are only a few investigations on whether LLMs
can draw analogies between long texts. In this paper, we present ANALOGICAL, a
new benchmark to intrinsically evaluate LLMs across a taxonomy of analogies of
long text with six levels of complexity -- (i) word, (ii) word vs. sentence,
(iii) syntactic, (iv) negation, (v) entailment, and (vi) metaphor. Using
thirteen datasets and three different distance measures, we evaluate the
abilities of eight LLMs in identifying analogical pairs in the semantic vector
space. Our evaluation finds that it is increasingly challenging for LLMs to
identify analogies when going up the analogy taxonomy.
- Abstract(参考訳): 過去10年間で、単語レベルの類推という形で、Word2vecのような単語埋め込み手法の品質を評価するための本質的な尺度として重要な役割を果たしてきた。
しかし、現代の大規模言語モデル(LLM)は、GLUEやSuperGLUEのようなベンチマークに基づく外部尺度に基づいて主に評価されており、LLMが長いテキスト間の類似性を引き出すことができるかどうかについてはいくつかの研究がある。
本稿では,6段階の複雑さを持つ長文のアナロジーの分類において,LLMを内在的に評価する新しいベンチマークであるANALOGICALを提案する。
(i)単語
(ii)単語対文
(三)統語論、
(4)否定
(v)以下
(vi)メタファー。
13のデータセットと3つの異なる距離測度を用いて、意味ベクトル空間における類似対を識別する8つのLLMの能力を評価する。
我々の評価では,類推分類法を上昇させる際,llm が類推を識別することがますます困難になっていることがわかった。
関連論文リスト
- BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - On the Relationship between Sentence Analogy Identification and Sentence
Structure Encoding in Large Language Models [7.716762867270514]
文の類似を捕捉するLarge Language Modelsの能力は,構文構造と意味構造をエンコードする能力によってどのように異なるかを検討する。
構文構造をよりよく捉えたLLMは,文の類似を識別する能力も高いことがわかった。
論文 参考訳(メタデータ) (2023-10-11T18:59:48Z) - Why Do We Need Neuro-symbolic AI to Model Pragmatic Analogies? [6.8107181513711055]
知性の目印は、慣れ親しんだドメインを使用して、アナログ推論として知られる、あまり親しみのないドメインについての推論を行う能力である。
語彙的類推,構文的類推,意味的類推,実用的類推の4つの異なるレベルにおける類推について論じる。
我々は、統計とシンボルAIを組み合わせたニューロシンボリックAI技術を採用し、構造化されていないテキストの表現を通知し、関連コンテンツを強調し、拡張し、抽象化を提供し、マッピングプロセスを導く。
論文 参考訳(メタデータ) (2023-08-02T21:13:38Z) - Long-form analogies generated by chatGPT lack human-like
psycholinguistic properties [0.5884031187931463]
バイオケミカル概念に関する長文類似から個々の文を評価するための心理言語学的手法を適用した。
導入生化学コースに登録された被験者が生成するアナロジーと、チャットGPTが生成するアナロジーを比較検討した。
論文 参考訳(メタデータ) (2023-06-07T15:42:31Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Scientific and Creative Analogies in Pretrained Language Models [24.86477727507679]
本稿では,BERT や GPT-2 などの大規模事前学習言語モデルにおけるアナログの符号化について検討する。
我々は,複数の属性の体系的マッピングと異種ドメイン間の関係構造を含む新しいアナロジーデータセットであるScientific and Creative Analogy dataset(SCAN)を紹介する。
現状のLMはこれらの複雑なアナロジータスクにおいて低性能を実現し、アナロジー理解によってもたらされる課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-11-28T12:49:44Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。