論文の概要: StRuCom: A Novel Dataset of Structured Code Comments in Russian
- arxiv url: http://arxiv.org/abs/2505.11026v1
- Date: Fri, 16 May 2025 09:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.470498
- Title: StRuCom: A Novel Dataset of Structured Code Comments in Russian
- Title(参考訳): StRuCom: ロシアにおける構造化コードコメントの新しいデータセット
- Authors: Maria Dziuba, Valentin Malykh,
- Abstract要約: StRuComはロシアのコードドキュメンテーション用に設計された最初の大規模データセットである。
ロシアのGitHubリポジトリからの人によるコメントと合成生成されたコメントを組み合わせることで、Python、Java、JavaScript、C#、Go標準への準拠を保証する。
StRuCom上のQwen2.5-Coderモデル(0.5B-7B)は、ベースラインモデル上でのchrf++とBERTScoreの統計的に有意な改善を示している。
- 参考スコア(独自算出の注目度): 4.996220925315664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured code comments in docstring format are essential for code comprehension and maintenance, but existing machine learning models for their generation perform poorly for Russian compared to English. To bridge this gap, we present StRuCom - the first large-scale dataset (153K examples) specifically designed for Russian code documentation. Unlike machine-translated English datasets that distort terminology (e.g., technical loanwords vs. literal translations) and docstring structures, StRuCom combines human-written comments from Russian GitHub repositories with synthetically generated ones, ensuring compliance with Python, Java, JavaScript, C#, and Go standards through automated validation. Fine-tuning Qwen2.5-Coder models (0.5B-7B) on StRuCom shows statistically significant improvements of chrf++ and BERTScore over baseline models.
- Abstract(参考訳): ドクストリング形式の構造化コードコメントは、コードの理解とメンテナンスには不可欠だが、既存の機械学習モデルは、英語に比べてロシア語では不十分である。
このギャップを埋めるために、ロシアのコードドキュメンテーション用に特別に設計された、最初の大規模なデータセット(153K例)であるStRuComを紹介します。
用語を歪める機械翻訳された英語データセット(技術的借用語対リテラル翻訳など)やドクストリング構造とは異なり、StRuComは、ロシアのGitHubリポジトリからの人によるコメントと合成生成されたコメントを組み合わせることで、自動検証を通じてPython、Java、JavaScript、C#、Go標準へのコンプライアンスを確保する。
StRuCom上のQwen2.5-Coderモデル(0.5B-7B)は、ベースラインモデル上でのchrf++とBERTScoreの統計的に有意な改善を示している。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - RoCode: A Dataset for Measuring Code Intelligence from Problem
Definitions in Romanian [10.035193313198207]
ルーマニア語で書かれた2,642問題からなる競合プログラミングデータセットであるRoCodeを紹介する。
我々は、英語以外の言語のためのコードモデルを開発する必要があると主張している。
論文 参考訳(メタデータ) (2024-02-20T18:32:47Z) - Data Augmentation for Code Translation with Comparable Corpora and Multiple References [21.754147577489764]
我々は、自然言語ドキュメントから生成されたプログラムを含む、比較可能なコーパスの複数のタイプを構築し、分析する。
単一の参照変換に対する過度な適合を低減するため、利用可能な並列データに対する追加の翻訳参照を自動生成する。
実験の結果,Java,Python,C++間の変換において,平均7.5%の計算精度でコードT5が大幅に改善された。
論文 参考訳(メタデータ) (2023-11-01T06:01:22Z) - A big data approach towards sarcasm detection in Russian [0.0]
本稿では,ロシア語の屈折と自動テキスト合成のための決定論的アルゴリズムを提案する。
これらのアルゴリズムは、公開のWebサービスwww.passare.ruで実装されている。
論文 参考訳(メタデータ) (2023-06-01T08:34:26Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。