論文の概要: SLANG: New Concept Comprehension of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12585v3
- Date: Mon, 5 Feb 2024 17:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:53:55.585712
- Title: SLANG: New Concept Comprehension of Large Language Models
- Title(参考訳): SLANG: 大規模言語モデルの新たな概念理解
- Authors: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Xueqi Cheng
- Abstract要約: 大規模言語モデル(LLM)は、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するために苦労する。
私たちのベンチマークとアプローチは、言語シフトの実際のインスタンスを消化するものです。
我々の因果推論に基づくアプローチは、インターネットスラングやミームの理解において、精度と関連性の観点から従来のモデルよりも優れている。
- 参考スコア(独自算出の注目度): 46.65436204783482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamic nature of language, particularly evident in the realm of slang
and memes on the Internet, poses serious challenges to the adaptability of
large language models (LLMs). Traditionally anchored to static datasets, these
models often struggle to keep up with the rapid linguistic evolution
characteristic of online communities. This research aims to bridge this gap by
enhancing LLMs' comprehension of the evolving new concepts on the Internet,
without the high cost of continual retraining. In pursuit of this goal, we
propose a new benchmark $\textbf{SLANG}$, which can autonomously integrates
novel data to stay dataset up-to-date, to assess LLMs' capability in
comprehending emerging concepts and an approach $\textbf{FOCUS}$, which uses
causal inference to enhance LLMs to understand new phrases and their colloquial
context. Our benchmark and approach involves digesting real-world instances of
linguistic shifts, serving as contextual beacons, to form more precise and
contextually relevant connections between newly emerging expressions and their
meanings. The empirical analysis shows that our causal inference-based approach
outperforms the traditional models in terms of precision and relevance in the
comprehension of Internet slang and memes.
- Abstract(参考訳): 言語の動的な性質は、特にインターネット上のスラングやミームの領域において顕著であり、大規模言語モデル(llm)の適応性に深刻な課題をもたらす。
伝統的に静的データセットに固定されているこれらのモデルは、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するのに苦労する。
本研究の目的は,インターネット上での新たな概念のLLMの理解を高めることで,継続的な再学習のコストを高く抑えることである。
この目標を追求するために、新しいデータを自動で統合してデータセットを最新に保ち、新興概念の理解におけるLLMの能力を評価できる$\textbf{FOCUS}$と、因果推論を用いてLLMを拡張し、新しいフレーズとその文脈を理解するアプローチである$\textbf{FOCUS}$を提案する。
我々のベンチマークとアプローチは、言語の変化の実際の例を消化し、文脈のビーコンとして働き、新しく現れた表現とその意味の間のより正確でコンテキスト的に関連づける関係を形成する。
実験分析の結果,我々の因果推論に基づくアプローチは,インターネットスラングやミームの理解において,精度と関連性の観点から従来のモデルよりも優れていることがわかった。
関連論文リスト
- CoLLEGe: Concept Embedding Generation for Large Language Models [12.812113254812028]
CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。
我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:26:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Contrastive Perplexity for Controlled Generation: An Application in
Detoxifying Large Language Models [25.212449683397647]
本稿では,暗黙的な知識編集と制御されたテキスト生成のための微調整LDMのためのコントラスト学習目標の統合について検討する。
自己教師型でモデルのトレーニングを容易にするため,市販のLCMを用いてデータ生成のトレーニングを行う。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language
Models to Generalize to Novel Interpretations [37.13707912132472]
人間は言語表現に新しい解釈を割り当てる素晴らしい能力を持っている。
大きな言語モデル(LLM)は知識の切り離しを持ち、何度も微調整を繰り返すのに費用がかかる。
我々は,LLMが文脈内学習を用いて新しい解釈を習得する能力を体系的に分析する。
論文 参考訳(メタデータ) (2023-10-18T00:02:38Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Continual Learning for Natural Language Generation in Task-oriented
Dialog Systems [72.92029584113676]
自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。
我々は,NLGの知識を新たなドメインや機能に段階的に拡張する"継続的学習"環境で研究する。
この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。
論文 参考訳(メタデータ) (2020-10-02T10:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。