論文の概要: "Write in English, Nobody Understands Your Language Here": A Study of Non-English Trends in Open-Source Repositories
- arxiv url: http://arxiv.org/abs/2602.19446v1
- Date: Mon, 23 Feb 2026 02:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.649982
- Title: "Write in English, Nobody Understands Your Language Here": A Study of Non-English Trends in Open-Source Repositories
- Title(参考訳): 『英語で書く、ここではあなたの言葉を理解できない』:オープンソースリポジトリにおける非英語の動向について
- Authors: Masudul Hasan Masud Bhuiyan, Manish Kumar Bala Kumar, Cristian-Alexandru Staicu,
- Abstract要約: オープンソースソフトウェア(OSS)は歴史的に、コード、ドキュメント、開発者インタラクションの主要言語として英語によって支配されてきた。
この調査では、914億のGitHub問題、プルリクエスト、議論などを分析し、2015年から2025年までの期間をカバーした5つのプログラミング言語と30の自然言語にわたる62,500のリポジトリを分析し、OSSがより多言語化されているかを調査した。
- 参考スコア(独自算出の注目度): 10.370699287504644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The open-source software (OSS) community has historically been dominated by English as the primary language for code, documentation, and developer interactions. However, with growing global participation and better support for non-Latin scripts through standards like Unicode, OSS is gradually becoming more multilingual. This study investigates the extent to which OSS is becoming more multilingual, analyzing 9.14 billion GitHub issues, pull requests, and discussions, and 62,500 repositories across five programming languages and 30 natural languages, covering the period from 2015 to 2025. We examine six research questions to track changes in language use across communication, code, and documentation. We find that multilingual participation has steadily increased, especially in Korean, Chinese, and Russian. This growth appears not only in issues and discussions but also in code comments, string literals, and documentation files. While this shift reflects greater inclusivity and language diversity in OSS, it also creates language tension. The ability to express oneself in a native language can clash with shared norms around English use, especially in collaborative settings. Non-English or multilingual projects tend to receive less visibility and participation, suggesting that language remains both a resource and a barrier, shaping who gets heard, who contributes, and how open collaboration unfolds.
- Abstract(参考訳): オープンソースソフトウェア(OSS)コミュニティは歴史的に、コード、ドキュメント、開発者インタラクションの主要な言語として、英語によって支配されてきた。
しかし、グローバルな参加が高まり、Unicodeのような標準を通じて非ラテン文字のサポートが向上するにつれ、OSSは徐々に多言語化が進んでいる。
この調査では、914億のGitHub問題、プルリクエスト、議論などを分析し、2015年から2025年までの期間をカバーした5つのプログラミング言語と30の自然言語にわたる62,500のリポジトリを分析し、OSSがより多言語化されているかを調査した。
コミュニケーション,コード,ドキュメント間の言語使用の変化を追跡するために,6つの調査質問について検討する。
特に韓国語、中国語、ロシア語では多言語参加が着実に増加している。
この成長は問題や議論だけでなく、コードコメント、文字列リテラル、ドキュメントファイルにも見られます。
このシフトはOSSの傾きと言語の多様性を反映するが、言語の緊張も引き起こす。
ネイティブ言語で自分自身を表現する能力は、特に協調的な設定において、英語の使用に関する共有規範と衝突する可能性がある。
非英語または多言語プロジェクトの可視性や参加性が低下する傾向があり、言語がリソースと障壁の両方を維持し、誰が耳を傾けるか、誰が貢献するか、オープンなコラボレーションがどのように展開するかを示唆している。
関連論文リスト
- CoCo-CoLa: Evaluating and Improving Language Adherence in Multilingual LLMs [1.2057938662974816]
大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。
多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文 参考訳(メタデータ) (2025-02-18T03:03:53Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - xCoT: Cross-lingual Instruction Tuning for Cross-lingual
Chain-of-Thought Reasoning [36.34986831526529]
CoT(Chain-of-Thought)は、大規模言語モデルにおける推論を誘発する強力なテクニックとして登場した。
本稿では,ハイソース言語から低リソース言語へ知識を伝達するための言語間命令微調整フレームワーク(xCOT)を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:53:53Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。