論文の概要: QQ: A Toolkit for Language Identifiers and Metadata
- arxiv url: http://arxiv.org/abs/2603.00620v1
- Date: Sat, 28 Feb 2026 12:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.295452
- Title: QQ: A Toolkit for Language Identifiers and Metadata
- Title(参考訳): QQ: 言語識別とメタデータのためのツールキット
- Authors: Wessel Poelman, Yiyi Chen, Miryam de Lhoneux,
- Abstract要約: 統一言語メタデータ管理のための軽量PythonツールキットQwanQwaを紹介する。
QwanQwaは複数の言語リソースを単一のインターフェースに統合する。
言語識別子間の適切な正規化とマッピングを提供する。
- 参考スコア(独自算出の注目度): 7.607054209125189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing number of languages considered in multilingual NLP, including new datasets and tasks, poses challenges regarding properly and accurately reporting which languages are used and how. For example, datasets often use different language identifiers; some use BCP-47 (e.g. en_Latn), others use ISO 639-1 (en), and more linguistically oriented datasets use Glottocodes (stan1293). Mapping between identifiers is manageable for a few dozen languages, but becomes unscalable when dealing with thousands. We introduce QwanQwa, a light-weight Python toolkit for unified language metadata management. QQ integrates multiple language resources into a single interface, provides convenient normalization and mapping between language identifiers, and affords a graph-based structure that enables traversal across families, regions, writing systems, and other linguistic attributes. QQ serves both as (1) a simple "glue" library in multilingual NLP research to make working with many languages easier, and (2) as an intuitive way for exploring languages, such as finding related ones through shared scripts, regions or other metadata.
- Abstract(参考訳): 新たなデータセットやタスクを含む多言語NLPで考慮される言語の増加は、どの言語が使われているか、どのように正しく報告するかという課題を提起する。
BCP-47 (eg en_Latn)、ISO 639-1 (en)、言語指向のデータセットはGlottocodes (stan1293)などである。
識別子間のマッピングは数十言語で管理可能だが、数千の言語を扱うとスケールできない。
統一言語メタデータ管理のための軽量PythonツールキットQwanQwaを紹介する。
QQは、複数の言語リソースを単一のインターフェースに統合し、言語識別子間の適切な正規化とマッピングを提供し、家族、地域、記述システム、その他の言語属性間のトラバースを可能にするグラフベースの構造を提供する。
QQは、(1)多言語NLP研究における単純な"glue"ライブラリで、複数の言語を簡単に扱えるようにし、(2)共有スクリプトやリージョン、その他のメタデータを通じて関連するものを見つけるなど、言語を探索する直感的な方法として機能する。
関連論文リスト
- LANGSAE EDITING: Improving Multilingual Information Retrieval via Post-hoc Language Identity Removal [34.73949500194166]
多言語埋め込みは、セマンティクスと共に言語アイデンティティをエンコードする。
本稿では,プール埋め込みを訓練したポストホックスパースオートエンコーダであるLangSAE EDIINGを提案する。
複数の言語にわたる実験では、ランキング品質と言語間カバレッジが一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-08T09:36:41Z) - Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - MERLIN: A Testbed for Multilingual Multimodal Entity Recognition and Linking [40.44700814984852]
本稿では,多言語マルチモーダルエンティティリンクのための新しいテストベッドシステムであるMERLINを紹介する。
作成されたデータセットには、ヒンディー語、日本語、インドネシア語、ベトナム語、タミル語という5つの言語で、対応する画像と組み合わせたBBCニュース記事タイトルが含まれている。
また、異なる言語モデルを探索する多言語および多モーダルなエンティティリンク手法を用いて、いくつかのベンチマークを含む。
論文 参考訳(メタデータ) (2025-10-16T05:06:54Z) - ILID: Native Script Language Identification for Indian Languages [0.0]
言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。
英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。
我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
論文 参考訳(メタデータ) (2025-07-16T01:39:32Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - LIMIT: Language Identification, Misidentification, and Translation using
Hierarchical Models in 350+ Languages [27.675441924635294]
現在のシステムは世界の7000の言語の大部分を正確に識別することはできない。
まず、350以上の言語で50Kの多言語・並列児童話のコーパスMCS-350をコンパイルする。
言語識別のための新しい誤予測分解階層モデル LIMIt を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:15:43Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。