論文の概要: Untangling Input Language from Reasoning Language: A Diagnostic Framework for Cross-Lingual Moral Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2601.10257v1
- Date: Thu, 15 Jan 2026 10:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.099847
- Title: Untangling Input Language from Reasoning Language: A Diagnostic Framework for Cross-Lingual Moral Alignment in LLMs
- Title(参考訳): 推論言語から入力言語をアンタングする:LLMにおける言語間モーラルアライメントのための診断フレームワーク
- Authors: Nan Li, Bo Kang, Tijl De Bie,
- Abstract要約: 2つの要因は、ジレンマ自体の言語、またはモデルが原因となる言語である。
標準評価は、適合した条件のみをテストすることでこれらを膨らませる。
本稿では,各要因を個別に操作する手法を提案する。
- 参考スコア(独自算出の注目度): 10.386888517619997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When LLMs judge moral dilemmas, do they reach different conclusions in different languages, and if so, why? Two factors could drive such differences: the language of the dilemma itself, or the language in which the model reasons. Standard evaluation conflates these by testing only matched conditions (e.g., English dilemma with English reasoning). We introduce a methodology that separately manipulates each factor, covering also mismatched conditions (e.g., English dilemma with Chinese reasoning), enabling decomposition of their contributions. To study \emph{what} changes, we propose an approach to interpret the moral judgments in terms of Moral Foundations Theory. As a side result, we identify evidence for splitting the Authority dimension into a family-related and an institutional dimension. Applying this methodology to English-Chinese moral judgment with 13 LLMs, we demonstrate its diagnostic power: (1) the framework isolates reasoning-language effects as contributing twice the variance of input-language effects; (2) it detects context-dependency in nearly half of models that standard evaluation misses; and (3) a diagnostic taxonomy translates these patterns into deployment guidance. We release our code and datasets at https://anonymous.4open.science/r/CrossCulturalMoralJudgement.
- Abstract(参考訳): LLMが道徳的ジレンマを判断するとき、異なる言語で異なる結論に達するだろうか。
この2つの要因は、ジレンマ自体の言語、またはモデルが原因となる言語である。
標準評価は、マッチした条件(例えば、英語のジレンマと英語の推論)のみをテストすることで、これらを膨らませる。
それぞれの要因を個別に操作する手法を導入し、また、不一致条件(例えば、中国語の推論を伴う英語のジレンマ)をカバーし、それらの貢献の分解を可能にする。
そこで我々は,道徳的判断を道徳的基礎論の観点で解釈するアプローチを提案する。
その結果,権限の次元を家族関係と制度的次元に分割する証拠を同定した。
本手法を13 LLMを用いて英語・中国語の道徳的判断に適用し,その診断力を示す。(1) フレームワークは,入力言語効果の2倍のばらつきに寄与する推論言語効果を分離し,(2) 標準評価が見逃すモデルの半分近くで文脈依存性を検出し,(3) 診断分類はこれらのパターンを展開指導に翻訳する。
コードとデータセットはhttps://anonymous.4open.science/r/CrossCulturalMoralJudgementで公開しています。
関連論文リスト
- One Model, Many Morals: Uncovering Cross-Linguistic Misalignments in Computational Moral Reasoning [23.56514813420256]
大規模言語モデル(LLM)における言語が道徳的意思決定をどのように仲介するかを検討する。
我々の分析は、LLMの言語間の道徳的判断に重大な矛盾があることを示し、しばしば文化的不一致を反映している。
我々は、私たちの洞察を、より文化的に認識されたAIを要求する道徳的推論エラーの構造化されたタイプロジーに精査する。
論文 参考訳(メタデータ) (2025-09-25T19:14:17Z) - MFTCXplain: A Multilingual Benchmark Dataset for Evaluating the Moral Reasoning of LLMs through Multi-hop Hate Speech Explanation [6.477880844490245]
MFT CXplainは、大規模言語モデルの道徳的推論を評価するためのベンチマークデータセットである。
ポルトガル語、イタリア語、ペルシア語、英語に3000のつぶやきがあり、二進的ヘイトスピーチラベル、道徳カテゴリー、テキストスパンレベルの合理性で注釈付けされている。
この結果から,道徳的推論タスクにおけるLLM出力と人間のアノテーションの相違が示唆された。
論文 参考訳(メタデータ) (2025-06-23T19:44:21Z) - Under the Shadow of Babel: How Language Shapes Reasoning in LLMs [27.48119976373105]
大規模言語モデルは,様々な言語に埋め込まれた習慣的論理構造を内部化することを示す。
1)LLMは,中国語の語源や文の初期接続性に注目しつつ,英語のバランスの取れた分布を示す。
論文 参考訳(メタデータ) (2025-06-19T09:06:38Z) - Intermediate Languages Matter: Formal Choice Drives Neurosymbolic LLM Reasoning [50.99811144731619]
形式言語の選択は構文的および意味論的推論能力の両方に影響を及ぼすことを示す。
平均的な文脈認識エンコーディングはLCMの推論に役立つが、コメントやマークダウン構文を使うことによる明らかな影響はない、と結論付けている。
論文 参考訳(メタデータ) (2025-02-24T14:49:52Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。