論文の概要: Auditing Reciprocal Sentiment Alignment: Inversion Risk, Dialect Representation and Intent Misalignment in Transformers
- arxiv url: http://arxiv.org/abs/2602.17469v1
- Date: Thu, 19 Feb 2026 15:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.132024
- Title: Auditing Reciprocal Sentiment Alignment: Inversion Risk, Dialect Representation and Intent Misalignment in Transformers
- Title(参考訳): 相互感性アライメントの聴取:変圧器における逆リスク, 対話表現, 直感的ミスアライメント
- Authors: Nusrat Jahan Lia, Shubhashis Roy Dipta,
- Abstract要約: ベンガル語と英語の言語間感の相違について研究する。
我々は、現在のアライメントパラダイムにおいて、深刻な安全性と表現上の失敗を明らかにします。
我々は、平等な人間とAIの共進化には、多元的、文化的に根ざしたアライメントが必要であると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core theme of bidirectional alignment is ensuring that AI systems accurately understand human intent and that humans can trust AI behavior. However, this loop fractures significantly across language barriers. Our research addresses Cross-Lingual Sentiment Misalignment between Bengali and English by benchmarking four transformer architectures. We reveal severe safety and representational failures in current alignment paradigms. We demonstrate that compressed model (mDistilBERT) exhibits 28.7% "Sentiment Inversion Rate," fundamentally misinterpreting positive user intent as negative (or vice versa). Furthermore, we identify systemic nuances affecting human-AI trust, including "Asymmetric Empathy" where some models systematically dampen and others amplify the affective weight of Bengali text relative to its English counterpart. Finally, we reveal a "Modern Bias" in the regional model (IndicBERT), which shows a 57% increase in alignment error when processing formal (Sadhu) Bengali. We argue that equitable human-AI co-evolution requires pluralistic, culturally grounded alignment that respects language and dialectal diversity over universal compression, which fails to preserve the emotional fidelity required for reciprocal human-AI trust. We recommend that alignment benchmarks incorporate "Affective Stability" metrics that explicitly penalize polarity inversions in low-resource and dialectal contexts.
- Abstract(参考訳): 双方向アライメントのコアテーマは、AIシステムが人間の意図を正確に理解し、人間がAIの振る舞いを信頼できることを保証することだ。
しかし、このループは言語障壁を越えて著しく破壊される。
本研究は,4つのトランスフォーマーアーキテクチャをベンチマークすることで,ベンガル語と英語の言語間の相互感覚の相違に対処する。
我々は、現在のアライメントパラダイムにおいて、深刻な安全性と表現上の失敗を明らかにする。
圧縮モデル(mDistilBERT)は28.7%の「感度反転率」を示し、基本的に正のユーザ意図を否定的(あるいはその逆)と誤解している。
さらに,「非対称共感」を含む,人間とAIの信頼に影響を及ぼす体系的なニュアンスを同定する。
最後に、地域モデル(IndicBERT)における「モダンバイアス」を明らかにし、形式的(Sadhu)ベンガル処理において、アライメントエラーが57%増加することを示す。
平等な人間とAIの共進化には言語と方言の多様性を尊重する多元的、文化的に根ざしたアライメントが必要であり、これは相互の人間とAIの信頼に必要な感情的忠実性を維持するのに失敗する。
我々は、アライメントベンチマークには、低リソースおよび方言コンテキストにおける極性反転を明確に罰する"影響安定"指標が組み込まれていることを推奨する。
関連論文リスト
- ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。
ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。
ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文 参考訳(メタデータ) (2026-02-13T08:33:37Z) - PluriHarms: Benchmarking the Full Spectrum of Human Judgments on AI Harm [39.043933213898136]
現在のAI安全フレームワークは、有害性をバイナリとして扱うことが多いが、人間が同意しない境界的なケースを扱う柔軟性は欠如している。
PluriHarmsは、2つの重要な次元にわたる人間の害判定を研究するために設計されたベンチマークである。
我々のスケーラブルなフレームワークは、人間のデータによって検証された高い不一致率のケースをターゲットにしながら、多様なAIの害や人間の価値を捉えるプロンプトを生成する。
論文 参考訳(メタデータ) (2026-01-13T19:41:11Z) - When Your AI Agent Succumbs to Peer-Pressure: Studying Opinion-Change Dynamics of LLMs [0.0]
ピアプレッシャーがLarge Language Model(LLM)エージェントの意見にどのように影響するかを,認知的コミットメントの範囲にわたって検討する。
エージェントは、低圧で安定し、閾値で急変し、高度に飽和するシグモイド曲線に従う。
我々は、肯定的な意見から否定的な意見への転換が、逆よりも認知的な努力を必要とする、基本的な「説得的非対称性」を明らかにする。
論文 参考訳(メタデータ) (2025-10-21T22:02:15Z) - Does Language Model Understand Language? [1.0450509067356148]
自然言語の生成と理解の進歩にもかかわらず、LMは依然として粒度の細かい言語現象に苦慮している。
本研究では,英語とベンガル語の両方の難解な文脈において,SOTA言語モデルの評価を行う。
その結果,最もバランスの取れたモデルとして,多種多様な言語条件における高い相関と低いMAEを一貫して達成していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T21:09:09Z) - Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens [0.42970700836450487]
特定の言語品種の体系的誤認識は、技術的な制限以上のものであると論じる。
我々は、ASRバイアスと他のアルゴリズム的公正度とを区別する音声技術の3つのユニークな倫理的次元を同定する。
論文 参考訳(メタデータ) (2025-08-10T02:26:47Z) - Anthropomimetic Uncertainty: What Verbalized Uncertainty in Language Models is Missing [66.04926909181653]
我々は人為的不確実性について論じる。つまり、直感的で信頼に値する不確実性コミュニケーションは、ユーザに対してある程度の言語的信頼とパーソナライズを必要とする。
我々は、不確実性に関する人間と機械のコミュニケーションにおけるユニークな要因を指摘し、機械の不確実性通信に影響を与えるデータのバイアスを分解する。
論文 参考訳(メタデータ) (2025-07-11T14:07:22Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。