論文の概要: Can Large Language Models Understand Internet Buzzwords Through User-Generated Content
- arxiv url: http://arxiv.org/abs/2505.15071v1
- Date: Wed, 21 May 2025 03:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.849976
- Title: Can Large Language Models Understand Internet Buzzwords Through User-Generated Content
- Title(参考訳): 大規模言語モデルはユーザ生成コンテンツを通してインターネットのバズワードを理解することができるか
- Authors: Chen Huang, Junkai Luo, Xinzuo Wang, Wenqiang Lei, Jiancheng Lv,
- Abstract要約: 大型言語モデル(LLM)が中国語のインターネットバズワードの正確な定義を生成できるかどうかを検討する。
CHEERは中国のインターネットバズワードの最初のデータセットであり、それぞれに定義と関連性がある。
我々は,より正確なバズワード定義を生成するために,LLMの解釈過程を効果的に制御する新しい手法 RESS を提案する。
- 参考スコア(独自算出の注目度): 24.553312647537062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive user-generated content (UGC) available in Chinese social media is giving rise to the possibility of studying internet buzzwords. In this paper, we study if large language models (LLMs) can generate accurate definitions for these buzzwords based on UGC as examples. Our work serves a threefold contribution. First, we introduce CHEER, the first dataset of Chinese internet buzzwords, each annotated with a definition and relevant UGC. Second, we propose a novel method, called RESS, to effectively steer the comprehending process of LLMs to produce more accurate buzzword definitions, mirroring the skills of human language learning. Third, with CHEER, we benchmark the strengths and weaknesses of various off-the-shelf definition generation methods and our RESS. Our benchmark demonstrates the effectiveness of RESS while revealing crucial shared challenges: over-reliance on prior exposure, underdeveloped inferential abilities, and difficulty identifying high-quality UGC to facilitate comprehension. We believe our work lays the groundwork for future advancements in LLM-based definition generation. Our dataset and code are available at https://github.com/SCUNLP/Buzzword.
- Abstract(参考訳): 中国のソーシャルメディアで利用できる巨大なユーザー生成コンテンツ(UGC)は、インターネットのバズワードを研究する可能性を高めている。
本稿では,大言語モデル (LLM) が UGC を例として,これらのバズワードに対して正確な定義を生成できるかどうかを検討する。
私たちの仕事は3倍の貢献をする。
まず、中国初のインターネットバズワードデータセットであるCHEERを紹介し、それぞれに定義と関連するUGCを付加する。
第2に,人間の言語学習のスキルを反映した,より正確なバズワード定義を生成するために,LLMの解釈過程を効果的に操る手法であるRESSを提案する。
第三に、CHEERでは、様々な既製の定義生成手法とRESSの長所と短所をベンチマークします。
本ベンチマークでは, 事前曝露への過度依存, 未発達の推論能力, 理解を容易にするための高品質なUGCの同定が困難である, 重要な共有課題を明らかにするとともに, RESSの有効性を示す。
我々は,LLMに基づく定義生成の今後の発展に向けて,我々の研究が基礎を成していると信じている。
データセットとコードはhttps://github.com/SCUNLP/Buzzword.comから入手可能です。
関連論文リスト
- Language Models are Crossword Solvers [1.53744306569115]
我々は,大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
現代の言語モデルでは、暗号的クロスワードの手がかりを解読する能力が非常に高いことが実証されている。
また,この性能を生かした検索アルゴリズムを開発し,アウトオブボックス LLM を用いて全クロスワードグリッドを解く問題に対処する。
論文 参考訳(メタデータ) (2024-06-13T12:29:27Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP [28.479149974110463]
クリプティッククロスワード(英: Cryptic crosswords)は、NLPシステムの進歩に向けた有望なターゲットである。
我々は、NLPシステムの新しいベンチマークとして、秘密の手がかりのデータセットを提示する。
また、課題データ分割を導入し、サブワード・トークン化モデルのメタ言語的能力を検証し、手掛かりのワードプレイ部分を摂動することでモデル体系性を検討する。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z) - One-Shot Learning for Language Modelling [0.7465973440137806]
NLPタスクにおけるワンショット学習の課題は、機械学習の最近の発展からアイデアを取り入れることによって解決される。
我々は,kショット学習における異なる距離測定値の有効性について検討し,kショット学習に最適な距離測定値が存在しないことを示す。
公開データセットで言語タスクを1、2、3ショットで学習するベンチマークを確立します。
論文 参考訳(メタデータ) (2020-07-19T14:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。