論文の概要: WinoDict: Probing language models for in-context word acquisition
- arxiv url: http://arxiv.org/abs/2209.12153v1
- Date: Sun, 25 Sep 2022 05:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:18:17.218771
- Title: WinoDict: Probing language models for in-context word acquisition
- Title(参考訳): WinoDict: テキスト内単語獲得のための言語モデルの提案
- Authors: Julian Martin Eisenschlos and Jeremy R. Cole and Fangyu Liu and
William W. Cohen
- Abstract要約: 推論中に新しい単語を学習するLarge Language Models(LLM)の能力を測定するために,新しい文脈内学習パラダイムを導入する。
ベンチマークの結果,元のWinogradタスクと比較してLLMの精度が大幅に低下していることが判明した。
- 参考スコア(独自算出の注目度): 32.81587292382359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new in-context learning paradigm to measure Large Language
Models' (LLMs) ability to learn novel words during inference. In particular, we
rewrite Winograd-style co-reference resolution problems by replacing the key
concept word with a synthetic but plausible word that the model must understand
to complete the task. Solving this task requires the model to make use of the
dictionary definition of the new word given in the prompt. This benchmark
addresses word acquisition, one important aspect of the diachronic degradation
known to afflict LLMs. As LLMs are frozen in time at the moment they are
trained, they are normally unable to reflect the way language changes over
time. We show that the accuracy of LLMs compared to the original Winograd tasks
decreases radically in our benchmark, thus identifying a limitation of current
models and providing a benchmark to measure future improvements in LLMs ability
to do in-context learning.
- Abstract(参考訳): 推論中に新しい単語を学習するLarge Language Models(LLM)の能力を測定するために,新しい文脈内学習パラダイムを導入する。
特に、キー概念語をモデルがタスクを完了させるために理解しなければならない合成語に置き換えることで、Winogradスタイルの共参照解決問題を書き換える。
この課題を解決するためには、プロンプトで与えられた新しい単語の辞書定義を利用する必要がある。
このベンチマークは、LLMを苦しめることで知られるダイアクロニック劣化の重要な側面である単語の取得に対処する。
LLMはトレーニングのタイミングで凍結されているため、通常は言語の変化を反映することができない。
我々は,従来のWinogradタスクと比較してLLMの精度が大幅に低下していることを示し,現在のモデルの限界を特定し,LLMの文脈内学習能力の今後の改善を評価するためのベンチマークを提供する。
関連論文リスト
- MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models [8.7734602595507]
大規模言語モデル(LLM)の真の理解能力を測定するための新しいデータセットMMLU-SRを提案する。
我々は、キーワードをダミー語に置き換え、その定義に従って標準化されたテスト質問を修正した。
このような置換後のモデル性能は大幅に低下し,理解力の低下が示唆された。
論文 参考訳(メタデータ) (2024-06-15T05:35:47Z) - CoLLEGe: Concept Embedding Generation for Large Language Models [12.812113254812028]
CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。
我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:26:05Z) - NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms [19.863120275409393]
我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。
我々は新語を含む文と新語を置き換えたほぼ同一の文とを既存の代用語と比較することにより,時間的ドリフトを分析する。
モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
論文 参考訳(メタデータ) (2024-02-19T16:19:15Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Large Language Models and Multimodal Retrieval for Visual Word Sense
Disambiguation [1.8591405259852054]
Visual Word Sense Disambiguation (VWSD)は、候補者の中から画像を取得することを目的とした、新しい課題である。
本稿では、様々なアプローチを適用することで、この興味深い課題を明らかにするための大きな一歩を踏み出す。
論文 参考訳(メタデータ) (2023-10-21T14:35:42Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。