論文の概要: ANALOGICAL -- A Novel Benchmark for Long Text Analogy Evaluation in
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.05050v3
- Date: Thu, 25 May 2023 20:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 20:04:54.556093
- Title: ANALOGICAL -- A Novel Benchmark for Long Text Analogy Evaluation in
Large Language Models
- Title(参考訳): analogical --大規模言語モデルにおける長文アナロジー評価のための新しいベンチマーク
- Authors: Thilini Wijesiriwardene, Ruwan Wickramarachchi, Bimal G. Gajera,
Shreeyash Mukul Gowaikar, Chandan Gupta, Aman Chadha, Aishwarya Naresh
Reganti, Amit Sheth, Amitava Das
- Abstract要約: ANALOGICALは、大規模言語モデルを本質的に評価する新しいベンチマークである。
以上の結果から, LLM が類型分類に進出する際, 類型分類を識別することがますます困難になっていることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.4546044532817048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, analogies, in the form of word-level analogies, have
played a significant role as an intrinsic measure of evaluating the quality of
word embedding methods such as word2vec. Modern large language models (LLMs),
however, are primarily evaluated on extrinsic measures based on benchmarks such
as GLUE and SuperGLUE, and there are only a few investigations on whether LLMs
can draw analogies between long texts. In this paper, we present ANALOGICAL, a
new benchmark to intrinsically evaluate LLMs across a taxonomy of analogies of
long text with six levels of complexity -- (i) word, (ii) word vs. sentence,
(iii) syntactic, (iv) negation, (v) entailment, and (vi) metaphor. Using
thirteen datasets and three different distance measures, we evaluate the
abilities of eight LLMs in identifying analogical pairs in the semantic vector
space. Our evaluation finds that it is increasingly challenging for LLMs to
identify analogies when going up the analogy taxonomy.
- Abstract(参考訳): 過去10年間で、単語レベルの類推という形で、Word2vecのような単語埋め込み手法の品質を評価するための本質的な尺度として重要な役割を果たしてきた。
しかし、現代の大規模言語モデル(LLM)は、GLUEやSuperGLUEのようなベンチマークに基づく外部尺度に基づいて主に評価されており、LLMが長いテキスト間の類似性を引き出すことができるかどうかについてはいくつかの研究がある。
本稿では,6段階の複雑さを持つ長文のアナロジーの分類において,LLMを内在的に評価する新しいベンチマークであるANALOGICALを提案する。
(i)単語
(ii)単語対文
(三)統語論、
(4)否定
(v)以下
(vi)メタファー。
13のデータセットと3つの異なる距離測度を用いて、意味ベクトル空間における類似対を識別する8つのLLMの能力を評価する。
我々の評価では,類推分類法を上昇させる際,llm が類推を識別することがますます困難になっていることがわかった。
関連論文リスト
- Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - On the Relationship between Sentence Analogy Identification and Sentence
Structure Encoding in Large Language Models [7.716762867270514]
文の類似を捕捉するLarge Language Modelsの能力は,構文構造と意味構造をエンコードする能力によってどのように異なるかを検討する。
構文構造をよりよく捉えたLLMは,文の類似を識別する能力も高いことがわかった。
論文 参考訳(メタデータ) (2023-10-11T18:59:48Z) - Long-form analogies generated by chatGPT lack human-like
psycholinguistic properties [0.5884031187931463]
バイオケミカル概念に関する長文類似から個々の文を評価するための心理言語学的手法を適用した。
導入生化学コースに登録された被験者が生成するアナロジーと、チャットGPTが生成するアナロジーを比較検討した。
論文 参考訳(メタデータ) (2023-06-07T15:42:31Z) - ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base [51.777618249271725]
ANALOGYKBは、既存の知識グラフ(KGs)から派生した100万スケールのアナロジー知識ベースである
1)KGから直接抽出できる同一関係のアナロジー、2)大きな言語モデル(LLM)によって実現される選択とフィルタリングパイプラインと識別される類似関係のアナロジーである。
論文 参考訳(メタデータ) (2023-05-10T09:03:01Z) - Scientific and Creative Analogies in Pretrained Language Models [24.86477727507679]
本稿では,BERT や GPT-2 などの大規模事前学習言語モデルにおけるアナログの符号化について検討する。
我々は,複数の属性の体系的マッピングと異種ドメイン間の関係構造を含む新しいアナロジーデータセットであるScientific and Creative Analogy dataset(SCAN)を紹介する。
現状のLMはこれらの複雑なアナロジータスクにおいて低性能を実現し、アナロジー理解によってもたらされる課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-11-28T12:49:44Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。