Fugu-MT 論文翻訳(概要): PDFMathTranslate: Scientific Document Translation Preserving Layouts

論文の概要: PDFMathTranslate: Scientific Document Translation Preserving Layouts

arxiv url: http://arxiv.org/abs/2507.03009v2
Date: Tue, 08 Jul 2025 09:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 12:20:17.78808
Title: PDFMathTranslate: Scientific Document Translation Preserving Layouts
Title（参考訳）: PDFMathTranslate: レイアウトを保存する科学文書翻訳
Authors: Rongxin Ouyang, Chang Chu, Zhikuang Xin, Xiangyao Ma,
Abstract要約: PDFMathTranslateは、レイアウトを維持しながら科学的文書を翻訳する世界初のオープンソースソフトウェアである。我々は、最近の大規模言語モデルと正確なレイアウト検出の進歩を活用している。この作業はhttps://github.com/byaidu/pdfmathtranslateで公開されており、ダウンロード数は222万回以上である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language barriers in scientific documents hinder the diffusion and development of science and technologies. However, prior efforts in translating such documents largely overlooked the information in layouts. To bridge the gap, we introduce PDFMathTranslate, the world's first open-source software for translating scientific documents while preserving layouts. Leveraging the most recent advances in large language models and precise layout detection, we contribute to the community with key improvements in precision, flexibility, and efficiency. The work has been open-sourced at https://github.com/byaidu/pdfmathtranslate with more than 222k downloads.
Abstract（参考訳）: 科学文書における言語障壁は、科学と技術の拡散と発展を妨げる。しかし、これらの文書を翻訳する以前の努力は、レイアウトの情報をほとんど見落としていた。このギャップを埋めるために、レイアウトを維持しながら科学的文書を翻訳する世界初のオープンソースソフトウェアであるPDFMathTranslateを紹介します。大規模言語モデルの最新の進歩と正確なレイアウト検出を活用することで、私たちはコミュニティに、正確性、柔軟性、効率性において重要な改善をもたらします。この作業はhttps://github.com/byaidu/pdfmathtranslateで公開されており、ダウンロード数は222万回以上である。

関連論文リスト

Bridging Language Gaps in Open-Source Documentation with Large-Language-Model Translation [7.742297876120563]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクとドメイン間の翻訳において顕著な能力を示した。 OpenAI の ChatGPT 4 と Anthropic の Claude を用いて,50 ファイルのコミュニティ翻訳活動と英独翻訳を評価した。
論文参考訳（メタデータ） (2025-08-04T15:07:35Z)
Science Across Languages: Assessing LLM Multilingual Translation of Scientific Papers [24.150250149027883]
我々は、科学論文の翻訳に大規模言語モデル(LLM)を活用している。我々は複数の科学分野の論文を28の言語に翻訳する。ベンチマークの結果,平均性能は95.9%であった。
論文参考訳（メタデータ） (2025-02-25T06:08:48Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
I Can't Share Code, but I need Translation -- An Empirical Study on Code Translation through Federated LLM [3.9373541926236766]
本研究は、参加者が効率の良いコード翻訳のためのFedLLMを共同開発できることを実証する。この結果から,FedLLMはコード翻訳に協調的なアプローチを提供し,将来的な研究の方向性となる可能性が示唆された。
論文参考訳（メタデータ） (2025-01-10T05:43:36Z)
Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文参考訳（メタデータ） (2023-10-18T20:10:07Z)
XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文参考訳（メタデータ） (2022-09-22T18:01:27Z)
No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文参考訳（メタデータ） (2022-07-11T07:33:36Z)
Active Learning for Massively Parallel Translation of Constrained Text into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-08-16T14:49:50Z)
On the Influence of Machine Translation on Language Origin Obfuscation [0.3437656066916039]
本稿では、広く使われている2つの商用機械翻訳システムの翻訳結果から、ソースコードを検出する能力について分析する。評価の結果,十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることが示唆された。
論文参考訳（メタデータ） (2021-06-24T08:33:24Z)
Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文参考訳（メタデータ） (2021-05-09T14:49:07Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)
Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文参考訳（メタデータ） (2020-11-16T21:49:00Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
A High-Quality Multilingual Dataset for Structured Documentation Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文参考訳（メタデータ） (2020-06-24T02:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。