論文の概要: DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory
- arxiv url: http://arxiv.org/abs/2410.08143v1
- Date: Thu, 10 Oct 2024 17:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:05:45.030359
- Title: DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory
- Title(参考訳): DelTA: マルチレベルメモリに基づくオンライン文書レベル翻訳エージェント
- Authors: Yutong Wang, Jiali Zeng, Xuebo Liu, Derek F. Wong, Fandong Meng, Jie Zhou, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)のための文書レバレッジ翻訳エージェントであるDelTAを紹介する。
DelTAは、様々な粒度とスパンにまたがる情報を格納するマルチレベルメモリ構造を備えている。
実験結果から,DelTAは翻訳の一貫性や品質において,強いベースラインを著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 96.35468670508476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. We release our code and data at https://github.com/YutongWang1216/DocMTAgent.
- Abstract(参考訳): 大規模言語モデル(LLM)は機械翻訳(MT)において合理的な品質向上を実現している。
しかし、MT-LLMに関する現在の研究のほとんどは、文書全体を処理する際に翻訳一貫性と精度を維持する上で大きな課題に直面している。
本稿では,これらの制約を克服するための文書レバレッジ翻訳エージェントであるDelTAを紹介する。
DelTAには、Proper Noun Records、Bilingual Summary、Long-Term Memory、Short-Term Memoryなど、さまざまな粒度やスパンの情報を格納するマルチレベルメモリ構造がある。
実験の結果,DelTAは4つのオープン/クローズドソースLCMと2つの代表的な文書翻訳データセットの翻訳一貫性と品質において,高いベースラインを著しく上回り,一貫性スコアが4.58ポイント,COMETスコアが3.16ポイント向上した。
DelTAは文単位の翻訳戦略を採用し、文の省略を確実にし、メインストリームの方法と比較してメモリ効率のよいソリューションを提供する。
さらに、DelTAは代名詞翻訳の精度を改善し、エージェントの要約コンポーネントは、クエリベースの要約タスクのツールとしてpromiseも示す。
コードとデータはhttps://github.com/YutongWang1216/DocMTAgent.comで公開しています。
関連論文リスト
- Doc-Guided Sent2Sent++: A Sent2Sent++ Agent with Doc-Guided memory for Document-level Machine Translation [11.36816954288264]
本稿では,インクリメンタルな文レベル強制デコード戦略を利用するエージェントであるDoc-Guided Sent2Sent++を紹介する。
私たちは、Sent2Sent++が他のメソッドよりも品質、一貫性、レイテンシで優れていることを実証します。
論文 参考訳(メタデータ) (2025-01-15T02:25:35Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [74.84236945680503]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Context-Aware or Context-Insensitive? Assessing LLMs' Performance in Document-Level Translation [10.174848090916669]
大規模言語モデル(LLM)は、機械翻訳においてますます強力な競争相手となっている。
文章の外部からの文脈なしには、いくつかの単語を翻訳できない文書レベルの翻訳に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-18T11:52:10Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。