論文の概要: SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning
- arxiv url: http://arxiv.org/abs/2407.13297v1
- Date: Thu, 18 Jul 2024 08:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:12:25.889972
- Title: SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning
- Title(参考訳): SpeciaLex: In-Context Specialized Lexicon Learningのベンチマーク
- Authors: Joseph Marvin Imperial, Harish Tayyar Madabushi,
- Abstract要約: SpeciaLexは、特殊レキシコンベースの制約に従う言語モデルの能力を評価するためのベンチマークである。
オープンおよびクローズドソース LLM の実証評価を行った。
- 参考スコア(独自算出の注目度): 4.1205832766381985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Specialized lexicons are collections of words with associated constraints such as special definitions, specific roles, and intended target audiences. These constraints are necessary for content generation and documentation tasks (e.g., writing technical manuals or children's books), where the goal is to reduce the ambiguity of text content and increase its overall readability for a specific group of audience. Understanding how large language models can capture these constraints can help researchers build better, more impactful tools for wider use beyond the NLP community. Towards this end, we introduce SpeciaLex, a benchmark for evaluating a language model's ability to follow specialized lexicon-based constraints across 18 diverse subtasks with 1,285 test instances covering core tasks of Checking, Identification, Rewriting, and Open Generation. We present an empirical evaluation of 15 open and closed-source LLMs and discuss insights on how factors such as model scale, openness, setup, and recency affect performance upon evaluating with the benchmark.
- Abstract(参考訳): 特殊レキシコン(英: Specialated lexicons)は、特別な定義、特定の役割、目的とする対象のオーディエンスなど、関連する制約のある単語の集合である。
これらの制約は、テキストコンテンツの曖昧さを減らし、特定のオーディエンスに対する全体的な可読性を高めることを目的として、コンテンツ生成およびドキュメントタスク(例えば、テクニカルマニュアルや子供の本を書く)に必要である。
これらの制約をいかに大きな言語モデルが捉えるかを理解することで、研究者はNLPコミュニティを超えて、より優れた、より影響力のあるツールを構築することができる。
この目的に向けて、言語モデルが18の異なるサブタスクにまたがる特別なレキシコンベースの制約に従う能力を評価するためのベンチマークであるSpeciaLexを紹介し、チェック、識別、書き換え、オープンジェネレーションのコアタスクをカバーする1,285のテストインスタンスを紹介した。
本稿では,15のオープン・クローズド・ソース LLM の実証評価を行い,モデルスケール,オープンネス,セットアップ,信頼性などの要因が,ベンチマークで評価した場合のパフォーマンスに与える影響について考察する。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - COLLIE: Systematic Construction of Constrained Text Generation Tasks [33.300039566331876]
COLLIEは文法ベースのフレームワークで、多種多様な世代レベルのリッチで構成的な制約を仕様化することができる。
本研究では,制約構造と生テキストコーパスが与えられたタスクインスタンスの自動抽出ツールを開発する。
我々は、最先端の5つの言語モデルに対して体系的な実験を行い、その性能を分析し、欠点を明らかにする。
論文 参考訳(メタデータ) (2023-07-17T17:48:51Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Negation, Coordination, and Quantifiers in Contextualized Language
Models [4.46783454797272]
機能語の意味的制約が学習されるかどうか, 周辺環境が組み込む環境に与える影響について検討する。
我々は、適切なデータセットを作成し、LMs vis-a-vis関数ワードの内部動作に関する新たな洞察を提供し、質的分析のための補助的なビジュアルWebインターフェースを実装した。
論文 参考訳(メタデータ) (2022-09-16T10:01:11Z) - Monolingual alignment of word senses and definitions in lexicographical
resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文 参考訳(メタデータ) (2022-09-06T13:09:52Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。