論文の概要: Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19631v1
- Date: Mon, 26 May 2025 07:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.256028
- Title: Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models
- Title(参考訳): セグメンテーションファーストかコンプリートファーストか? 大規模言語モデルを用いた教師なし単語セグメンテーションの限界を探る
- Authors: Zihong Zhang, Liqi He, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。
我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。
本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
- 参考スコア(独自算出の注目度): 92.92512796044471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word segmentation stands as a cornerstone of Natural Language Processing (NLP). Based on the concept of "comprehend first, segment later", we propose a new framework to explore the limit of unsupervised word segmentation with Large Language Models (LLMs) and evaluate the semantic understanding capabilities of LLMs based on word segmentation. We employ current mainstream LLMs to perform word segmentation across multiple languages to assess LLMs' "comprehension". Our findings reveal that LLMs are capable of following simple prompts to segment raw text into words. There is a trend suggesting that models with more parameters tend to perform better on multiple languages. Additionally, we introduce a novel unsupervised method, termed LLACA ($\textbf{L}$arge $\textbf{L}$anguage Model-Inspired $\textbf{A}$ho-$\textbf{C}$orasick $\textbf{A}$utomaton). Leveraging the advanced pattern recognition capabilities of Aho-Corasick automata, LLACA innovatively combines these with the deep insights of well-pretrained LLMs. This approach not only enables the construction of a dynamic $n$-gram model that adjusts based on contextual information but also integrates the nuanced understanding of LLMs, offering significant improvements over traditional methods. Our source code is available at https://github.com/hkr04/LLACA
- Abstract(参考訳): 単語セグメンテーションは自然言語処理(NLP)の基盤となっている。
そこで本稿では,Large Language Models (LLM) を用いた教師なし単語セグメンテーション(unsupervised word segmentation)の限界を探索し,単語セグメンテーションに基づくLLMの意味理解能力を評価するためのフレームワークを提案する。
我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。
この結果から,LLMは生テキストを単語に分割する簡単なプロンプトに従うことができることがわかった。
複数の言語でより多くのパラメータを持つモデルの性能が向上する傾向にある。
さらに、LLACA$\textbf{L}$arge $\textbf{L}$anguage Model-Inspired $\textbf{A}$ho-$\textbf{C}$orasick $\textbf{A}$utomatonという新しい教師なしの手法を導入する。
Aho-Corasick Automaticaの高度なパターン認識機能を活用して、LACAはこれらを、よく訓練されたLLMの深い洞察と、革新的に組み合わせている。
このアプローチは、文脈情報に基づいて調整する動的$n$-gramモデルの構築を可能にするだけでなく、LLMの微妙な理解を統合し、従来の手法よりも大幅に改善する。
ソースコードはhttps://github.com/hkr04/LLACAで公開されています。
関連論文リスト
- Continual Learning Using Only Large Language Model Prompting [13.987306383667518]
本稿では,大規模言語モデル(LLM)をブラックボックスとみなす新しい連続学習パラダイムであるCLOBを紹介する。
また,LLMの入力長制限を克服するインクリメンタルな要約に基づいて,CISと呼ばれる新しいCL手法を提案する。
論文 参考訳(メタデータ) (2024-12-20T01:21:57Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか?
我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。
提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文 参考訳(メタデータ) (2024-06-26T01:16:12Z) - LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning [8.379286663107845]
セグメンテーション(Reasoning segmentation)は、セグメンテーションシステムが暗黙のユーザ意図を推論し解釈することを可能にする新しいタスクである。
推論セグメンテーションに関する研究は、方法論設計とデータセットラベリングの両方に寄与する。
論文 参考訳(メタデータ) (2024-04-12T18:45:51Z) - Empowering Segmentation Ability to Multi-modal Large Language Models [19.685984211930354]
マルチモーダルな大言語モデル(MLLM)をセグメンテーション能力で拡張する。
拡張MLLMは、画像言語プロンプトに対する言語応答を出力し、言語プロンプト内の複雑な質問やクエリがフォーカスする領域をセグメント化することができる。
LLaVASegと呼ばれる新しいMLLMフレームワークを提案する。このフレームワークは,MLLMにユーザによってクエリされたターゲット領域を分割するように指示するチェーン・オブ・シークレット・プロンプト戦略を利用する。
論文 参考訳(メタデータ) (2024-03-21T05:36:25Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。