論文の概要: Can Large Language Models Understand Internet Buzzwords Through User-Generated Content
- arxiv url: http://arxiv.org/abs/2505.15071v1
- Date: Wed, 21 May 2025 03:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.849976
- Title: Can Large Language Models Understand Internet Buzzwords Through User-Generated Content
- Title(参考訳): 大規模言語モデルはユーザ生成コンテンツを通してインターネットのバズワードを理解することができるか
- Authors: Chen Huang, Junkai Luo, Xinzuo Wang, Wenqiang Lei, Jiancheng Lv,
- Abstract要約: 大型言語モデル(LLM)が中国語のインターネットバズワードの正確な定義を生成できるかどうかを検討する。
CHEERは中国のインターネットバズワードの最初のデータセットであり、それぞれに定義と関連性がある。
我々は,より正確なバズワード定義を生成するために,LLMの解釈過程を効果的に制御する新しい手法 RESS を提案する。
- 参考スコア(独自算出の注目度): 24.553312647537062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive user-generated content (UGC) available in Chinese social media is giving rise to the possibility of studying internet buzzwords. In this paper, we study if large language models (LLMs) can generate accurate definitions for these buzzwords based on UGC as examples. Our work serves a threefold contribution. First, we introduce CHEER, the first dataset of Chinese internet buzzwords, each annotated with a definition and relevant UGC. Second, we propose a novel method, called RESS, to effectively steer the comprehending process of LLMs to produce more accurate buzzword definitions, mirroring the skills of human language learning. Third, with CHEER, we benchmark the strengths and weaknesses of various off-the-shelf definition generation methods and our RESS. Our benchmark demonstrates the effectiveness of RESS while revealing crucial shared challenges: over-reliance on prior exposure, underdeveloped inferential abilities, and difficulty identifying high-quality UGC to facilitate comprehension. We believe our work lays the groundwork for future advancements in LLM-based definition generation. Our dataset and code are available at https://github.com/SCUNLP/Buzzword.
- Abstract(参考訳): 中国のソーシャルメディアで利用できる巨大なユーザー生成コンテンツ(UGC)は、インターネットのバズワードを研究する可能性を高めている。
本稿では,大言語モデル (LLM) が UGC を例として,これらのバズワードに対して正確な定義を生成できるかどうかを検討する。
私たちの仕事は3倍の貢献をする。
まず、中国初のインターネットバズワードデータセットであるCHEERを紹介し、それぞれに定義と関連するUGCを付加する。
第2に,人間の言語学習のスキルを反映した,より正確なバズワード定義を生成するために,LLMの解釈過程を効果的に操る手法であるRESSを提案する。
第三に、CHEERでは、様々な既製の定義生成手法とRESSの長所と短所をベンチマークします。
本ベンチマークでは, 事前曝露への過度依存, 未発達の推論能力, 理解を容易にするための高品質なUGCの同定が困難である, 重要な共有課題を明らかにするとともに, RESSの有効性を示す。
我々は,LLMに基づく定義生成の今後の発展に向けて,我々の研究が基礎を成していると信じている。
データセットとコードはhttps://github.com/SCUNLP/Buzzword.comから入手可能です。
関連論文リスト
- An Empirical Investigation of Gender Stereotype Representation in Large Language Models: The Italian Case [0.41942958779358674]
本研究では,大規模言語モデルが無意味なプロンプトに対してどのように反応し,偏りのあるアウトプットに寄与するかを検討する。
その結果、LCMが生成したコンテンツがステレオタイプを永続化する方法が明らかになった。
AI生成テキストにおけるバイアスの存在は、職場や仕事の選択など、多くの分野に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-07-25T10:57:29Z) - Language Models are Crossword Solvers [1.53744306569115]
我々は,大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
現代の言語モデルでは、暗号的クロスワードの手がかりを解読する能力が非常に高いことが実証されている。
また,この性能を生かした検索アルゴリズムを開発し,アウトオブボックス LLM を用いて全クロスワードグリッドを解く問題に対処する。
論文 参考訳(メタデータ) (2024-06-13T12:29:27Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Multitasking Framework for Unsupervised Simple Definition Generation [5.2221935174520056]
本稿では,言語学習者や低リテラシー学習者を支援するための,シンプル定義生成の課題を提案する。
この課題の重要な課題は、多くの言語における学習者の辞書の欠如である。
複雑な定義を持つ標準辞書と任意の単純なテキストを含むコーパスのみを必要とするマルチタスクフレームワークSimpDefinerを提案する。
論文 参考訳(メタデータ) (2022-03-24T08:16:04Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP [28.479149974110463]
クリプティッククロスワード(英: Cryptic crosswords)は、NLPシステムの進歩に向けた有望なターゲットである。
我々は、NLPシステムの新しいベンチマークとして、秘密の手がかりのデータセットを提示する。
また、課題データ分割を導入し、サブワード・トークン化モデルのメタ言語的能力を検証し、手掛かりのワードプレイ部分を摂動することでモデル体系性を検討する。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z) - One-Shot Learning for Language Modelling [0.7465973440137806]
NLPタスクにおけるワンショット学習の課題は、機械学習の最近の発展からアイデアを取り入れることによって解決される。
我々は,kショット学習における異なる距離測定値の有効性について検討し,kショット学習に最適な距離測定値が存在しないことを示す。
公開データセットで言語タスクを1、2、3ショットで学習するベンチマークを確立します。
論文 参考訳(メタデータ) (2020-07-19T14:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。