論文の概要: From Data to Dialogue: Unlocking Language for All
- arxiv url: http://arxiv.org/abs/2512.15552v1
- Date: Wed, 17 Dec 2025 15:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.052483
- Title: From Data to Dialogue: Unlocking Language for All
- Title(参考訳): データから対話へ:全ての言語をアンロックする
- Authors: Dakota Ellis, Samy Bakikerali, Wanshan Chen, Bao Dinh, Uyen Le,
- Abstract要約: 伝統的な言語学者は、英語で最も重要な単語を識別する新しい言語学習者を支援するために、ジェネラル・サービス・リスト(GSL)の使用を提案した。
我々は、独自のGSLを作成し、業界標準に対して実用性を評価する(NGSL)。
専門用語リスト(SWL)を作成することは、言語学習者がプロセスを最適化する最も実践的な方法であることがわかった。
- 参考スコア(独自算出の注目度): 0.06524460254566904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional linguists have proposed the use of a General Service List (GSL) to assist new language learners in identifying the most important words in English. This process requires linguistic expertise, subjective input, and a considerable amount of time. We attempt to create our own GSL and evaluate its practicality against the industry standard (The NGSL). We found creating a Specialized Word List (SWL), or a word list specific to a subset of the overall corpus, to be the most practical way for language-learners to optimize the process. The SWL's that we created using our model outperformed the industry standard, reaching the 95% coverage required for language comprehension with fewer words comparatively. By restricting the SWL process to objective criteria only, it can be automated, scaled, and tailored to the needs of language-learners across the globe.
- Abstract(参考訳): 伝統的な言語学者は、英語で最も重要な単語を識別する新しい言語学習者を支援するために、ジェネラル・サービス・リスト(GSL)の使用を提案した。
このプロセスには言語的な専門知識、主観的な入力、かなりの時間が必要です。
我々は、独自のGSLを作成し、業界標準(NGSL)に対して実用性を評価する。
コーパス全体のサブセットに固有の単語リスト(SWL)を作成することは、言語学習者がそのプロセスを最適化する最も実践的な方法である。
我々のモデルを用いて作成したSWLは業界標準よりも優れており、比較的少ない単語で言語理解に必要な95%のカバレッジに達しました。
SWLプロセスを客観的基準のみに制限することにより、世界中の言語学習者のニーズに合わせて自動化、拡張、調整することができる。
関連論文リスト
- CEFR-Annotated WordNet: LLM-Based Proficiency-Guided Semantic Database for Language Learning [0.0]
我々は、共通ヨーロッパ言語参照フレームワーク(CEFR)を付加したWordNetを開発する。
我々は、WordNetにおける感覚定義と英語語彙プロファイルオンラインにおけるエントリのセマンティックな類似性を測定する。
実験により, コーパス上で微調整されたモデルが金標準アノテーションで訓練されたモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2025-10-21T09:42:48Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Can we teach language models to gloss endangered languages? [10.698704803396723]
Interlinear glossed text (IGT) は言語ドキュメントプロジェクトにおいて一般的なフォーマットであり、各形態素には記述的なアノテーションが付けられている。
我々は,大規模言語モデル (LLM) が,従来の訓練を使わずに,文脈内学習と相互学習の課題に有効であるかどうかを考察する。
LLMベースの手法は、トレーニングを全く必要とせず、標準的なトランスフォーマーベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-27T05:17:04Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。