論文の概要: Less is More: The Effectiveness of Compact Typological Language Representations
- arxiv url: http://arxiv.org/abs/2509.20129v1
- Date: Wed, 24 Sep 2025 13:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.833631
- Title: Less is More: The Effectiveness of Compact Typological Language Representations
- Title(参考訳): より少ないもの:コンパクトなタイポロジー言語表現の有効性
- Authors: York Hay Ng, Phuong Hanh Hoang, En-Shiun Annie Lee,
- Abstract要約: 言語的特徴データセットであるEL+は、言語間関係のモデル化には有用であるが、その高次元性と空間性は距離メトリクスの有効性を制限している。
本稿では,特徴選択とインプットを組み合わせることで,特徴空間を最適化するパイプラインを提案する。
言語的距離アライメントと下流タスクにおいて,これらの特徴部分集合を評価し,言語型学の小型表現により,より情報的距離の指標が得られることを示した。
- 参考スコア(独自算出の注目度): 2.875395487826173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic feature datasets such as URIEL+ are valuable for modelling cross-lingual relationships, but their high dimensionality and sparsity, especially for low-resource languages, limit the effectiveness of distance metrics. We propose a pipeline to optimize the URIEL+ typological feature space by combining feature selection and imputation, producing compact yet interpretable typological representations. We evaluate these feature subsets on linguistic distance alignment and downstream tasks, demonstrating that reduced-size representations of language typology can yield more informative distance metrics and improve performance in multilingual NLP applications.
- Abstract(参考訳): URIEL+のような言語の特徴データセットは、言語間関係をモデル化するのに有用であるが、その高次元性や空間性、特に低リソース言語では距離メトリクスの有効性を制限している。
本稿では,特徴選択とインプットを組み合わせることで,URIEL+の型的特徴空間を最適化し,コンパクトかつ解釈可能な型表現を生成するパイプラインを提案する。
言語的距離アライメントと下流タスクにおけるこれらの特徴部分集合の評価を行い、言語型学の縮小された表現により、より情報的距離の指標が得られ、多言語NLPアプリケーションの性能が向上することを示した。
関連論文リスト
- Sparse Autoencoders Can Capture Language-Specific Concepts Across Diverse Languages [11.19692440351977]
既存の研究はしばしば個々のニューロンに焦点を当てているが、その多意味性は言語固有の単位を分離することが困難である。
本稿では,機能アクティベーション確率に基づくSAE-LAPEを用いて,フィードフォワードネットワーク内の言語固有の特徴を識別する手法を提案する。
これらの機能は、モデルの多言語パフォーマンスと言語出力に影響を与え、fastTextに匹敵するパフォーマンスを持つ言語識別に使用できる。
論文 参考訳(メタデータ) (2025-07-15T12:00:30Z) - Evaluating Compact LLMs for Zero-Shot Iberian Language Tasks on End-User Devices [0.3141085922386211]
大規模言語モデルは、言語生成、翻訳、推論といったタスクにおいて顕著なパフォーマンスを達成するために、大幅に進歩した自然言語処理を持つ。
その相当な計算要件は、ハイエンドシステムへのデプロイメントを制限し、コンシューマグレードデバイスへのアクセシビリティを制限している。
本研究は,イベリア語に適したNLPタスクを網羅的に評価する。
論文 参考訳(メタデータ) (2025-04-04T09:47:58Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - SIGTYP 2020 Shared Task: Prediction of Typological Features [78.95376120154083]
タイポロジーKBが広く採用されるのを妨げる大きな欠点は、人口が少ないことである。
類型的特徴は相互に相関することが多いため、それらを予測し、自動的に類型的KBを投入することができる。
全体として、このタスクは5つのチームから8つの応募を惹きつけた。
論文 参考訳(メタデータ) (2020-10-16T08:47:24Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。