論文の概要: Leveraging Language Models for Log Statement Generation in Multilingual Scenarios: How Far Are We?
- arxiv url: http://arxiv.org/abs/2605.25374v1
- Date: Mon, 25 May 2026 02:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.261632
- Title: Leveraging Language Models for Log Statement Generation in Multilingual Scenarios: How Far Are We?
- Title(参考訳): マルチ言語シナリオにおけるログステートメント生成のための言語モデルの利用: どこまで?
- Authors: Kazuki Kusama, Honglin Shu, Masanari Kondo, Yasutaka Kamei,
- Abstract要約: 最先端のアプローチであるUniLogは、多言語環境においても高い効率を保ちながら、全体的なパフォーマンスを最高のものにしている。
Pythonはより大きな課題を示し、JavaScriptは比較的優れたパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Log statements capture critical information for software maintenance activities such as testing, debugging, and failure analysis. Because of this importance, developers must carefully design log statements, which requires significant effort. To support developers, various end-to-end automated log statement generation approaches have been proposed, whereas these approaches have mainly been evaluated within a single programming language environment and their effectiveness in multilingual environments remains underexplored. In this paper, we therefore comparatively evaluate three state-of-the-art log statement generation approaches and five large language models (LLMs) across multiple programming languages. For this purpose, we constructed a multilingual benchmark comprising 150,000 instances across five programming languages. Our empirical results demonstrate that UniLog, a state-of-the-art approach, achieves the best overall performance, maintaining high effectiveness even in multilingual environments. We also observe substantial variance in the difficulty of log generation across languages: Python presents a greater challenge, whereas JavaScript yields comparatively better performance. Detailed analysis reveals that these disparities stem from variations in log insertion distributions and language-specific logging idioms. Our findings indicate that simply scaling model size or the volume of training data is insufficient for multilingual log generation; rather, designing approaches tailored to the specific characteristics of target languages is crucial. These findings suggest that future automated logging techniques should explicitly account for language-specific logging characteristics to achieve robust performance in multilingual software development environments.
- Abstract(参考訳): ログステートメントは、テスト、デバッグ、障害解析などのソフトウェア保守活動にとって重要な情報をキャプチャする。
この重要性のため、開発者はログステートメントを慎重に設計する必要がある。
開発者を支援するために、様々なエンドツーエンドの自動ログステートメント生成アプローチが提案されているが、これらのアプローチは主に単一のプログラミング言語環境で評価され、多言語環境におけるそれらの有効性は未検討のままである。
そこで本研究では,複数の言語にまたがる3つの最先端ログステートメント生成手法と5つの大規模言語モデル(LLM)を比較検討する。
この目的のために,5つのプログラミング言語にまたがる15万のインスタンスからなる多言語ベンチマークを構築した。
実験の結果,UniLogは,多言語環境においても高い効率性を維持しつつ,最高の総合的な性能を実現していることがわかった。
Pythonは大きな課題を示し、JavaScriptは比較的優れたパフォーマンスをもたらします。
詳細な分析により、これらの相違は、ログ挿入分布と言語固有のロギングイディオムのばらつきに起因していることが明らかとなった。
モデルサイズやトレーニングデータのボリュームのスケールアップは多言語ログ生成には不十分であり,ターゲット言語の特徴に合わせた設計アプローチが不可欠である。
これらの結果は,将来の自動ロギング技術は,多言語ソフトウェア開発環境における堅牢なパフォーマンスを実現するために,言語固有のロギング特性を明示的に考慮する必要があることを示唆している。
関連論文リスト
- Single-Language Evidence Is Insufficient for Automated Logging: A Multilingual Benchmark and Empirical Study with LLMs [39.533189552746116]
本稿では,6つのプログラミング言語エコシステムにまたがるベンチマークおよび実証研究であるMultiLogBenchについて述べる。
統一されたプロトコル下での7つの現代の大規模言語モデルを用いて、ロギングサイトローカライゼーション、フレームワーク・アンカーマッチング、重大度予測、メッセージ生成、変数回復、そしてケースドされた全体的な品質を評価する。
論文 参考訳(メタデータ) (2026-04-19T16:43:17Z) - What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。
我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。
我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文 参考訳(メタデータ) (2026-02-19T18:58:39Z) - BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.37878669586302]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。
ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。
MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-10T16:49:12Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。