論文の概要: Bridging Language Gaps in Open-Source Documentation with Large-Language-Model Translation
- arxiv url: http://arxiv.org/abs/2508.02497v1
- Date: Mon, 04 Aug 2025 15:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:32:48.972461
- Title: Bridging Language Gaps in Open-Source Documentation with Large-Language-Model Translation
- Title(参考訳): 大規模言語モデル翻訳を用いたオープンソースドキュメンテーションにおけるブリッジング言語ギャップ
- Authors: Elijah Kayode Adejumo, Brittany Johnson, Mariam Guizani,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学のタスクとドメイン間の翻訳において顕著な能力を示した。
OpenAI の ChatGPT 4 と Anthropic の Claude を用いて,50 ファイルのコミュニティ翻訳活動と英独翻訳を評価した。
- 参考スコア(独自算出の注目度): 7.742297876120563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While open source communities attract diverse contributors globally, few repositories provide essential documentation in languages other than English. Large language models (LLMs) have demonstrated remarkable capabilities in software engineering tasks and translations across domains. However, little is known about LLM capabilities in translating open-source technical documentation, which mixes natural language, code, URLs, and markdown formatting. To understand the need and potential for LLMs in technical documentation translation, we evaluated community translation activity and English-to-German translations of 50 README files using OpenAI's ChatGPT 4 and Anthropic's Claude. We found scarce translation activity, mostly in larger repositories and community-driven in nature. LLM performance comparison suggests they can provide accurate translations. However, analysis revealed fidelity challenges: both models struggled to preserve structural components (e.g., hyperlinks) and exhibited formatting inconsistencies. These findings highlight both promise and challenges of LLM-assisted documentation internationalization. As a first step toward translation-aware continuous integration pipelines, we introduce TRIFID, an early-stage translation fidelity scoring framework that automatically checks how well translations preserve code, links, and formatting. Our efforts provide a foundation for automated LLM-driven support for creating and maintaining open source documentation.
- Abstract(参考訳): オープンソースコミュニティは世界中に多様なコントリビュータを集めているが、英語以外の言語で必須のドキュメントを提供するリポジトリはほとんどない。
大規模言語モデル(LLM)は、ソフトウェア工学のタスクとドメイン間の翻訳において顕著な能力を示した。
しかし、自然言語、コード、URL、マークダウンフォーマットを混ぜ合わせたオープンソースの技術ドキュメントを翻訳するLLMの機能についてはほとんど知られていない。
技術文書翻訳における LLM の必要性と可能性を理解するため,OpenAI の ChatGPT 4 と Anthropic の Claude を用いて,50 個の README ファイルのコミュニティ翻訳活動と英独翻訳を評価した。
ほとんどは大規模なリポジトリとコミュニティ主導の自然界で、翻訳活動が不足していることに気付きました。
LLMの性能比較は、正確な翻訳を提供できることを示唆している。
どちらのモデルも構造的コンポーネント(例えばハイパーリンク)を維持するのに苦労し、フォーマットの不整合を示しました。
これらの知見はLLM支援文書国際化の約束と課題の両方を浮き彫りにした。
翻訳対応の継続的インテグレーションパイプラインへの第一歩として、コード、リンク、フォーマットの保存方法を自動的にチェックする、初期段階の翻訳忠実度スコアリングフレームワークであるTRIFIDを紹介します。
私たちの取り組みは、オープンソースドキュメンテーションの作成とメンテナンスのためのLLMによる自動サポートの基盤を提供しています。
関連論文リスト
- Beyond the Sentence: A Survey on Context-Aware Machine Translation with Large Language Models [19.76204414964156]
本研究は,大規模言語モデル(LLM)を用いた文脈認識翻訳の文献レビューである。
既存の作業はプロンプトと微調整のアプローチを利用しており、文脈対応機械翻訳のための自動後編集と翻訳エージェントの作成にはほとんど焦点を当てていない。
論文 参考訳(メタデータ) (2025-06-09T09:27:00Z) - Improving LLM-based Document-level Machine Translation with Multi-Knowledge Fusion [21.533772761328656]
本稿では、文書要約とエンティティ翻訳の両方を含む複数の知識源を組み込むことにより、拡張されたアプローチを提案する。
提案手法は,ベースライン上での0.8,0.6,0.4 COMETのスコアを,余分な知識を伴わずに平均的に改善する。
論文 参考訳(メタデータ) (2025-03-15T14:18:45Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - I Can't Share Code, but I need Translation -- An Empirical Study on Code Translation through Federated LLM [3.9373541926236766]
本研究は、参加者が効率の良いコード翻訳のためのFedLLMを共同開発できることを実証する。
この結果から,FedLLMはコード翻訳に協調的なアプローチを提供し,将来的な研究の方向性となる可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-10T05:43:36Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [74.84236945680503]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Context-Aware or Context-Insensitive? Assessing LLMs' Performance in Document-Level Translation [10.174848090916669]
大規模言語モデル(LLM)は、機械翻訳においてますます強力な競争相手となっている。
文章の外部からの文脈なしには、いくつかの単語を翻訳できない文書レベルの翻訳に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-18T11:52:10Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。
実世界のオープンソースプロジェクトから抽出したコードについて検討する。
FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文 参考訳(メタデータ) (2024-05-19T10:54:03Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。