論文の概要: Translators as Invisible Teachers of AI: Copyright, Translation Memory, and the Political Economy of Linguistic Data
- arxiv url: http://arxiv.org/abs/2605.24842v1
- Date: Sun, 24 May 2026 03:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.472013
- Title: Translators as Invisible Teachers of AI: Copyright, Translation Memory, and the Political Economy of Linguistic Data
- Title(参考訳): AI教師としての翻訳者--言語データの著作権・翻訳記憶・政治経済
- Authors: Masaru Yamada,
- Abstract要約: 人工知能(AI)時代における翻訳者の労働力の基盤的データ資本への転換について検討する。
翻訳者の遺言は契約下で納品品として購入され、技術的対象としてセグメント化され、著作権法の下で「情報分析」データとして処理されていると論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines how the labour of translators has been transformed into foundational data capital for the age of artificial intelligence (AI). Translation memories (TM) and parallel corpora preserve a one-to-one correspondence between source and target text and therefore constitute extraordinarily valuable supervised training data for machine translation. The development of statistical machine translation (SMT), neural machine translation (NMT), the Transformer architecture, and multilingual large language models (LLMs) cannot be disentangled from the accumulation of such translation data. And yet, translators' renditions have been bought as deliverables under contract, segmented as technical objects, and processed as "information analysis" data under copyright law -- losing their moral, creative, and economic attribution to the translators who produced them. The paper develops two concepts to capture this process. The first is appropriation without consumption: a mode of use in which works are not read, viewed, or listened to, but only mined for statistical features -- a use that is legitimated under Article 30-4 of the Japanese Copyright Act. The second is the invisible teacherisation of translators: the process by which translators, through the construction of translation memories, post-editing, and quality assessment, have functioned as teachers of AI without recognition as such. Drawing on the data supply chain that runs from translators through language service providers (LSPs) and platforms to model developers, on a comparative reading of Japanese, European, and United States legal frameworks, on the distinction between open and proprietary AI models, and on the premium status that human-generated data has acquired in the era of model collapse, the paper asks what translators are actually afraid of, and points toward concrete directions for redistributive design.
- Abstract(参考訳): 本稿では,翻訳者の労働力が人工知能(AI)時代の基盤的データ資本にどのように変換されたかを検討する。
翻訳記憶(TM)と並列コーパスは、ソースとターゲットテキスト間の1対1の対応を保持し、機械翻訳のための非常に貴重な教師付きトレーニングデータを構成する。
統計機械翻訳(SMT)、ニューラル機械翻訳(NMT)、トランスフォーマーアーキテクチャ、多言語大言語モデル(LLM)の開発は、そのような翻訳データの蓄積から切り離すことはできない。
しかし、翻訳者の遺言は、契約下で納品品として購入され、技術的対象としてセグメンテーションされ、著作権法の下での「情報分析」データとして処理され、生産した翻訳者の道徳的、創造的、経済的帰属が失われ、このプロセスを捉えるための2つの概念が展開されている。
2つ目は、翻訳者が翻訳記憶の構築、後編集、品質評価を通じて、認識せずにAIの教師として機能するプロセスである。
翻訳者から言語サービス提供者(LSP)やプラットフォームを通じて開発者をモデル化するデータサプライチェーンについて、日本語、ヨーロッパ、米国における法律フレームワークの比較、オープンモデルとプロプライエタリなAIモデルの区別、および人為的データがモデル崩壊の時代に獲得したプレミアムステータスに基づいて、翻訳者が実際に何を恐れているのか、再配布設計の具体的な方向性を問う。
関連論文リスト
- Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。
古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。
本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文 参考訳(メタデータ) (2025-09-27T16:27:36Z) - Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文 参考訳(メタデータ) (2025-05-05T08:47:52Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。