論文の概要: SetLexSem Challenge: Using Set Operations to Evaluate the Lexical and Semantic Robustness of Language Models
- arxiv url: http://arxiv.org/abs/2411.07336v1
- Date: Mon, 11 Nov 2024 19:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:23.542676
- Title: SetLexSem Challenge: Using Set Operations to Evaluate the Lexical and Semantic Robustness of Language Models
- Title(参考訳): SetLexSem Challenge: 言語モデルの語彙的・意味的ロバスト性を評価するためにセット操作を利用する
- Authors: Bardiya Akhbari, Manish Gawali, Nicholas A. Dronen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の性能を評価するための総合ベンチマークであるSetLexSem Challengeを提案する。
フレームワークの体系的サンプリングを通じて、LLMは、これらの次元に沿っての変動に対して堅牢であるだけでなく、特にユニークな障害モードを示していることを示します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Set theory is foundational to mathematics and, when sets are finite, to reasoning about the world. An intelligent system should perform set operations consistently, regardless of superficial variations in the operands. Initially designed for semantically-oriented NLP tasks, large language models (LLMs) are now being evaluated on algorithmic tasks. Because sets are comprised of arbitrary symbols (e.g. numbers, words), they provide an opportunity to test, systematically, the invariance of LLMs' algorithmic abilities under simple lexical or semantic variations. To this end, we present the SetLexSem Challenge, a synthetic benchmark that evaluates the performance of LLMs on set operations. SetLexSem assesses the robustness of LLMs' instruction-following abilities under various conditions, focusing on the set operations and the nature and construction of the set members. Evaluating seven LLMs with SetLexSem, we find that they exhibit poor robustness to variation in both operation and operands. We show -- via the framework's systematic sampling of set members along lexical and semantic dimensions -- that LLMs are not only not robust to variation along these dimensions but demonstrate unique failure modes in particular, easy-to-create semantic groupings of "deceptive" sets. We find that rigorously measuring language model robustness to variation in frequency and length is challenging and present an analysis that measures them independently. The code for reproducing the results of this paper, and for generating the SetLexSem Challenge dataset, is available at \href{https://github.com/amazon-science/SetLexSem-Challenge}{https://github.com/amazon-science/SetLexSem-Challenge}.
- Abstract(参考訳): 集合論は数学の基礎であり、集合が有限であれば、世界について推論する。
インテリジェントシステムは、オペランドの表面的変動に関係なく、セット操作を一貫して実行するべきである。
当初、意味論的指向のNLPタスクのために設計され、大規模言語モデル(LLM)がアルゴリズムタスクで評価されている。
集合は任意の記号(例えば数、単語)から構成されるので、単純な語彙や意味のバリエーションの下で LLM のアルゴリズム能力の不変性を、体系的にテストする機会を提供する。
この目的のために,セット操作におけるLLMの性能を評価するためのベンチマークであるSetLexSem Challengeを提案する。
SetLexSemは、LLMの命令追従能力の様々な条件下での堅牢性を評価し、設定された操作とセットメンバーの性質と構成に焦点を当てる。
SetLexSem を用いて 7 個の LLM を評価した結果,操作およびオペランドの変動に対するロバスト性は低いことがわかった。
フレームワークによる、語彙的および意味論的次元に沿ったセットメンバーの体系的なサンプリングを通じて、LLMは、これらの次元に沿った変化に対して堅牢であるだけでなく、特に「知覚的」な集合の、簡単に作成できるセマンティックグルーピングにおいて、ユニークな障害モードを示す。
周波数・長さの変動に対する言語モデルの頑健さを厳密に測定することは困難であり,それらを独立に測定する分析を提示する。
本論文の結果を再現し,SetLexSem Challengeデータセットを生成するためのコードは, \href{https://github.com/amazon-science/SetLexSem-Challenge}{https://github.com/amazon-science/SetLexSem-Challenge} で公開されている。
関連論文リスト
- Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。
まず,算術学習において LLM が部分積を利用するかどうかを検討する。
LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文 参考訳(メタデータ) (2024-10-21T01:57:16Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement [11.363521189714504]
大規模言語モデル(LLM)は,タスク命令の語彙変化に対して過敏であることを示す。
プロンプト語彙強調(COPLE)のためのブラックボックス組合せ最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:53:59Z) - MARIO Eval: Evaluate Your Math LLM with your Math LLM--A mathematical dataset evaluation toolkit [4.957099360745168]
大規模言語モデル (LLM) は数学的問題の解法を含む様々な推論タスクにおいて研究されている。
我々は,ピソン型計算機代数システム(CAS)をその数値精度に活用するだけでなく,オプションのLCMも組み込んだ総合的な数学的評価ツールキットを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:03:44Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。