論文の概要: Moral Semantics Survive Machine Translation: Cross-Lingual Evidence from Moral Foundations Corpora
- arxiv url: http://arxiv.org/abs/2605.22660v1
- Date: Thu, 21 May 2026 16:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.338618
- Title: Moral Semantics Survive Machine Translation: Cross-Lingual Evidence from Moral Foundations Corpora
- Title(参考訳): Moral Semantics Survive Machine Translation: Moral Foundations Corporaによる言語横断的エビデンス
- Authors: Maciej Skorski,
- Abstract要約: 道徳的言語は微妙で文化的に変化しており、言語間で忠実に翻訳することは困難である。
直訳は、言語間機械学習によって得られる微妙な道徳的手がかりを十分に保っていることを示す。
我々はポーランド語をスラヴ語の代表として示し、関連する言語への一般化を期待する。
- 参考スコア(独自算出の注目度): 0.6091702876917279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moral language is subtle and culturally variable, making it difficult to translate faithfully across languages. Idiomatic expressions, slang, and cultural references introduce hard-to-avoid translation artifacts. Yet automated moral values classification depends on language-specific annotated corpora that exist almost exclusively in English. We investigate whether LLM-based translation can bridge this gap, taking Polish as a test case. Using $\sim$50k morally-annotated social media posts from a diverse range of topics, we apply a principled four-method validation pipeline: LaBSE cross-lingual embedding similarity, Centered Kernel Alignment (CKA), LLM-as-judge evaluation, and deep learning classifier parity tests. We show that despite shortcomings in handling slang, vulgarity, and culturally-loaded expressions, direct translation preserves subtle moral cues well enough to be harvested by cross-lingual machine learning -- with mean cosine similarity of 0.86 and AUC gaps of 0.01--0.02 across all foundations closing further under fine-tuning of language models. These results demonstrate that machine translation is a practical and cost-effective path to moral values research in languages currently under-resourced in this domain. We demonstrate this for Polish as a representative Slavic language, with expected generalisation to related languages.
- Abstract(参考訳): 道徳的言語は微妙で文化的に変化しており、言語間で忠実に翻訳することは困難である。
慣用的な表現、スラング、文化的な言及は、難解な翻訳品を取り入れている。
しかし、自動化された道徳的価値観の分類は、ほとんど英語にのみ存在する言語固有の注釈付きコーパスに依存している。
LLMをベースとした翻訳が,ポーランド語をテストケースとして,このギャップを埋めるかどうかを検討する。
さまざまなトピックから$\sim$50kの道徳的注釈付きソーシャルメディアポストを使用して、LaBSEの言語間埋め込み類似性、CKA(Centered Kernel Alignment)、LCM-as-judge評価、ディープラーニング分類器パリティテストという、原則的な4つのメソッド検証パイプラインを適用した。
我々は、スラング、華やかさ、文化的に負荷のかかる表現を扱うのに欠点があるにもかかわらず、直接翻訳は、言語モデルの微調整によりさらに閉じるすべての基礎において、言語間機械学習によって得られる微妙な道徳的手がかりを十分に保ち、平均コサイン類似度は0.86とAUCギャップは0.01-0.02であることを示した。
これらの結果は、現在この領域で不足している言語における道徳的価値の研究において、機械翻訳は実用的で費用対効果の高い経路であることを示している。
我々はポーランド語をスラヴ語の代表として示し、関連する言語への一般化を期待する。
関連論文リスト
- Untangling Input Language from Reasoning Language: A Diagnostic Framework for Cross-Lingual Moral Alignment in LLMs [10.386888517619997]
2つの要因は、ジレンマ自体の言語、またはモデルが原因となる言語である。
標準評価は、適合した条件のみをテストすることでこれらを膨らませる。
本稿では,各要因を個別に操作する手法を提案する。
論文 参考訳(メタデータ) (2026-01-15T10:26:29Z) - PragExTra: A Multilingual Corpus of Pragmatic Explicitation in Translation [12.24429799706733]
我々はPragExTraを紹介した。PragExTraは実用的明示のための最初の多言語コーパスと検出フレームワークである。
本研究は,Nullアライメントを用いて候補明示症例を特定し,人間のアノテーションを用いた能動的学習を用いて精査した。
その結果,エンティティとシステムレベルの明示が最も頻度が高いことがわかった。
論文 参考訳(メタデータ) (2025-11-04T16:44:57Z) - One Model, Many Morals: Uncovering Cross-Linguistic Misalignments in Computational Moral Reasoning [23.56514813420256]
大規模言語モデル(LLM)における言語が道徳的意思決定をどのように仲介するかを検討する。
我々の分析は、LLMの言語間の道徳的判断に重大な矛盾があることを示し、しばしば文化的不一致を反映している。
我々は、私たちの洞察を、より文化的に認識されたAIを要求する道徳的推論エラーの構造化されたタイプロジーに精査する。
論文 参考訳(メタデータ) (2025-09-25T19:14:17Z) - The Moral Foundations Weibo Corpus [0.0]
道徳的な感情は、オンライン環境とオフライン環境の両方に影響し、行動スタイルと相互作用パターンを形成する。
既存のコーパスは価値はあるものの、しばしば言語的な制限に直面している。
このコーパスは、Weiboに関する25,671の中国語のコメントで構成され、6つの多様な話題領域を含んでいる。
論文 参考訳(メタデータ) (2024-11-14T17:32:03Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。