論文の概要: When Do Language Models Endorse Limitations on Human Rights Principles?
- arxiv url: http://arxiv.org/abs/2603.04217v1
- Date: Wed, 04 Mar 2026 16:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.389486
- Title: When Do Language Models Endorse Limitations on Human Rights Principles?
- Title(参考訳): 言語モデルは人権原則に制限を許すのか?
- Authors: Keenan Samway, Nicole Miu Takagi, Rada Mihalcea, Bernhard Schölkopf, Ilias Chalkidis, Daniel Hershcovich, Zhijing Jin,
- Abstract要約: 我々は,大言語モデル(LLM)が人権宣言(UDHR)を含むトレードオフをどのようにナビゲートするかを評価する。
主要な11のLCMを分析した結果、モデルが政治的、公民的権利よりも経済的、社会的、文化的権利の制限を受け入れるという体系的なバイアスが明らかとなった。
- 参考スコア(独自算出の注目度): 82.84306700922664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) increasingly mediate global information access with the potential to shape public discourse, their alignment with universal human rights principles becomes important to ensure that these rights are abided by in high stakes AI-mediated interactions. In this paper, we evaluate how LLMs navigate trade-offs involving the Universal Declaration of Human Rights (UDHR), leveraging 1,152 synthetically generated scenarios across 24 rights articles and eight languages. Our analysis of eleven major LLMs reveals systematic biases where models: (1) accept limiting Economic, Social, and Cultural rights more often than Political and Civil rights, (2) demonstrate significant cross-linguistic variation with elevated endorsement rates of rights-limiting actions in Chinese and Hindi compared to English or Romanian, (3) show substantial susceptibility to prompt-based steering, and (4) exhibit noticeable differences between Likert and open-ended responses, highlighting critical challenges in LLM preference assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、公衆の言論を形成する可能性によってグローバルな情報アクセスを仲介するようになり、それらの人権と普遍的な人権原則との整合性は、AIを介する高利害な相互作用によってこれらの権利が禁じられることを保証するために重要である。
本稿では,世界人権宣言(UDHR, Universal Declaration of Human Rights, UDHR)に関わるトレードオフをLLMがどうナビゲートするかを評価する。
その結果,1) 経済的・社会的・文化的権利の制限を政治的・公民権よりも頻繁に受け入れること,(2) 英語やルーマニア語と比較して中国やヒンディー語における権利制限行動の支持率の上昇による言語横断的変化を示すこと,(3) プロンプトベースの操舵への感受性を示すこと,(4) イーグルトとオープンな反応の顕著な相違を示すこと,そしてLLMの選好評価における重要な課題を明らかにすること,などが示唆された。
関連論文リスト
- Assessing Human Rights Risks in AI: A Framework for Model Evaluation [0.10195618602298682]
我々は,人権リスクを計算的に評価する枠組みを提示することにより,アルゴリズム監査の分野に貢献する。
我々は、モデルを評価するアプローチを開発し、モデルが特定の人権にもたらすリスクのレベルについて根拠づけた主張を行う。
人権のアプローチは現実世界の害に重点を置いているため、デプロイされる特定のコンテキストにおいて、AIシステムを評価する必要がある。
論文 参考訳(メタデータ) (2025-10-07T02:12:56Z) - Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts [69.69818198773244]
本研究では,言語理解と言語生産の両面で,多種多様なLMについて検討する。
最先端のLMは小さくはないが,言語理解において高い性能を発揮する。
論文 参考訳(メタデータ) (2025-09-08T17:59:32Z) - Comparing human and LLM politeness strategies in free production [6.91274201589206]
大規模言語モデル(LLM)におけるポリット音声の基本的なアライメントの課題
我々は,LLM が,制約された作業とオープンな作業の両方において,人間と LLM の応答を比較することによって,同様に文脈に敏感なレパートリーを採用できるかどうかを検討する。
大規模モデルでは計算実用学の文献から重要な選好を再現することができ、人間の評価者は驚くほどオープンな文脈でLLM生成の応答を好んでいる。
論文 参考訳(メタデータ) (2025-06-11T04:44:46Z) - Do LLMs exhibit demographic parity in responses to queries about Human Rights? [4.186018120368565]
ヘッジ(hedging)と非確認(non-affirmation)とは、曖昧さや特定の言明に対する明確な支持の欠如を表す行動である。
我々は、異なる国家または社会的アイデンティティの文脈において、人権に関する新しいプロンプトを設計する。
ヘッジや非確認行動をキャプチャするためのメトリクスを開発します。
すべてのモデルが、異なるアイデンティティグループ間での人権をどう評価するかという点において、人口統計学上の相違があることがわかった。
論文 参考訳(メタデータ) (2025-02-26T15:19:35Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。