論文の概要: SLANG: New Concept Comprehension of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12585v2
- Date: Tue, 30 Jan 2024 16:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:51:52.505798
- Title: SLANG: New Concept Comprehension of Large Language Models
- Title(参考訳): SLANG: 大規模言語モデルの新たな概念理解
- Authors: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Xueqi Chen
- Abstract要約: 大規模言語モデル(LLM)は、しばしば、オンラインコミュニティの急速な言語進化の特徴に追随するのに苦労する。
本研究は,インターネット上での新たな概念のLLMの理解を高めることを目的としている。
- 参考スコア(独自算出の注目度): 6.70718065022374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamic nature of language, particularly evident in the realm of slang
and memes on the Internet, poses serious challenges to the adaptability of
large language models (LLMs). Traditionally anchored to static datasets, these
models often struggle to keep up with the rapid linguistic evolution
characteristic of online communities. This research addresses the critical need
to bridge this gap, aiming to enhance LLMs' comprehension of the evolving new
concepts on the internet, without the high cost of continual retraining. To
address this issue, we propose a new benchmark $\textbf{SLANG}$, which can
autonomously integrates novel data to stay dataset up-to-date, to assess LLMs'
capability in comprehending emerging concepts and an approach $\textbf{FOCUS}$,
which uses causal inference to enhance LLMs to understand new phrases and their
colloquial context. This benchmark and approach involves digesting real-world
instances of linguistic shifts, serving as contextual beacons, to form more
precise and contextually relevant connections between newly emerging
expressions and their intended meanings. The empirical analysis shows that our
causal inference-based approach outperforms the traditional models in terms of
precision and relevance in the interpretation of internet slang and memes.
- Abstract(参考訳): 言語の動的な性質は、特にインターネット上のスラングやミームの領域において顕著であり、大規模言語モデル(llm)の適応性に深刻な課題をもたらす。
伝統的に静的データセットに固定されているこれらのモデルは、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するのに苦労する。
この研究は、インターネット上の進化する新しい概念に対するllmsの理解を深め、継続的な再訓練のコストを高くすることなく、このギャップを埋めることの必要性に対処している。
この問題に対処するために、新しいデータを自律的に統合してデータセットを最新に保ち、新興概念の理解におけるLLMの能力を評価できる新しいベンチマーク $\textbf{SLANG}$ と、因果推論を用いて LLM を拡張し、新しいフレーズとそれらの言葉コンテキストを理解するアプローチ $\textbf{FOCUS}$ を提案する。
このベンチマークとアプローチは、コンテキストビーコンとして機能する実際の言語シフトのインスタンスを消化して、新しく出現する表現とその意味の間のより正確で文脈的に関係のある関係を形成する。
実験分析により,我々の因果推論に基づくアプローチは,インターネットスラングとミームの解釈において,精度と関連性の観点から従来のモデルよりも優れていることが示された。
関連論文リスト
- CoLLEGe: Concept Embedding Generation for Large Language Models [12.812113254812028]
CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。
我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:26:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Contrastive Perplexity for Controlled Generation: An Application in
Detoxifying Large Language Models [25.212449683397647]
本稿では,暗黙的な知識編集と制御されたテキスト生成のための微調整LDMのためのコントラスト学習目標の統合について検討する。
自己教師型でモデルのトレーニングを容易にするため,市販のLCMを用いてデータ生成のトレーニングを行う。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language
Models to Generalize to Novel Interpretations [37.13707912132472]
人間は言語表現に新しい解釈を割り当てる素晴らしい能力を持っている。
大きな言語モデル(LLM)は知識の切り離しを持ち、何度も微調整を繰り返すのに費用がかかる。
我々は,LLMが文脈内学習を用いて新しい解釈を習得する能力を体系的に分析する。
論文 参考訳(メタデータ) (2023-10-18T00:02:38Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Continual Learning for Natural Language Generation in Task-oriented
Dialog Systems [72.92029584113676]
自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。
我々は,NLGの知識を新たなドメインや機能に段階的に拡張する"継続的学習"環境で研究する。
この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。
論文 参考訳(メタデータ) (2020-10-02T10:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。