Fugu-MT 論文翻訳(概要): To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

論文の概要: To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

arxiv url: http://arxiv.org/abs/2605.12120v1
Date: Tue, 12 May 2026 13:36:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.885035
Title: To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands
Title（参考訳）: 言語モデルに整合性を持たせるか : 競争力の高い需要下での主階層性の測定
Authors: Fangyi Yu, Nabeel Seedat, Jonathan Richard Schwarz, Andrew M. Bean,
Abstract要約: 高度に専門的な設定で展開された言語モデルは、ユーザ、機関当局、および専門的規範の相反する要求に直面します。法と医療の分野では7,136のシナリオで10のフロンティアモデルをテストし、タスク実行中にモデルがプロの標準に従わないことがよくあります。さらに、これらのモデルが示すユーザ、権威、および専門的標準の階層性は、医療および法的文脈において不安定であることがわかった。
参考スコア（独自算出の注目度）: 24.999486811014776
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Language models deployed in high-stakes professional settings face conflicting demands from users, institutional authorities, and professional norms. How models act when these demands conflict reveals a principal hierarchy -- an implicit ordering over competing stakeholders that determines, for instance, whether a medical AI receiving a cost-reduction directive from a hospital administrator complies at the expense of evidence-based care, or refuses because professional standards require it. Across 7,136 scenarios in legal and medical domains, we test ten frontier models and find that models frequently fail to adhere to professional standards during task execution, such as drafting, when user instructions conflict with those standards -- despite adequately upholding them when users seek advisory guidance. We further find that the hierarchies between user, authority, and professional standards exhibited by these models are unstable across medical and legal contexts and inconsistent across model families. When failing to follow professional standards, the primary failure mechanism is knowledge omission: models that demonstrably possess relevant knowledge produce harmful outputs without surfacing conflicting knowledge. In a particularly troubling instance, we find that a reasoning model recognizes the relevant knowledge in its reasoning trace -- e.g., that a drug has been withdrawn -- yet suppresses this in the user-facing answer and proceeds to recommend the drug under authority pressure anyway. Inconsistent alignment across task framing, domain, and model families suggests that current alignment methods, including published alignment hierarchies, are unlikely to be robust when models are deployed in high-stakes professional settings.
Abstract（参考訳）: 高度に専門的な設定で展開された言語モデルは、ユーザ、機関当局、および専門的規範の相反する要求に直面します。例えば、病院の管理者からコスト削減の指示を受けた医療AIが、エビデンスベースのケアを犠牲にするか、プロの基準がそれを必要とするため拒否するかを判断する。法律及び医療分野における7,136のシナリオにおいて、我々は10のフロンティアモデルをテストする。10のフロンティアモデル、例えば、起草、ユーザ指示がそれらの標準と矛盾する場合、ユーザが助言を求めるときに適切に守られているにもかかわらず、それらの標準と矛盾する場合に、しばしばモデルがプロの標準に準拠しないことを確認する。さらに、これらのモデルによって示されるユーザー、権威、およびプロの標準間の階層は、医療、法律、モデル家族間で不安定であること、そして、プロの標準に従わなかった場合、第一の失敗メカニズムは知識の欠落である – 関連した知識が矛盾する知識を過度に生み出すことなく、有害なアウトプットを生み出すモデルである。特に厄介なケースでは、理由付けモデルが、関連する知識(例えば、薬物が取り除かれてきたことなど)を認識していることを見出した。タスクフレーミング、ドメイン、モデルファミリ間の一貫性のないアライメントは、アライメント階層を含む現在のアライメントメソッドが、高レベルのプロフェッショナルな設定でモデルがデプロイされる場合、ロバストになる可能性が低いことを示唆している。

関連論文リスト

Mirror: A Multi-Agent System for AI-Assisted Ethics Review [104.3684024153469]
MirrorはAIによる倫理的レビューのためのエージェントフレームワークである。倫理的推論、構造化された規則解釈、統合されたアーキテクチャ内でのマルチエージェントの議論を統合する。
論文参考訳（メタデータ） (2026-02-09T03:38:55Z)
Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations [29.660677031436308]
我々は、モデルが認識すべき人間-AIの規範と、人間-AIの相互作用そのものに適用すべき人間-AIの相互作用規範とを区別する規範の分類法を導入する。我々は,自然主義的,オープンエンドな環境下でのモデルのノルム順守を自動的に評価するために,我々の分類をいかに運用するかを示す。
論文参考訳（メタデータ） (2026-01-12T20:11:40Z)
Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring [24.13989765643719]
現代の奴隷制度は世界中で何百万人もの人々に影響を与えており、現代の奴隷制度法のような規制の枠組みでは、企業が詳細な開示を公表する必要がある。これらのステートメントは曖昧で矛盾することが多く、手作業によるレビューの時間とスケールが難しくなる。専門家の監視を維持しつつルールレベルのコンプライアンス検証にAIを活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T03:41:44Z)
Towards Human-Centered RegTech: Unpacking Professionals' Strategies and Needs for Using LLMs Safely [41.788724443376815]
調査の結果、これらの専門家は、機密情報漏洩、知的財産権侵害、モデル出力の品質に関する不確実性など、一般的に懸念されていることがわかった。応答として、入力データを積極的に歪ませたり、プロンプトの細部を制限したりするなど、様々な緩和戦略を自然に採用する。我々の研究は、現在のNLPツールと専門家の実際のコンプライアンス要件との間に大きなギャップがあることを明らかにします。
論文参考訳（メタデータ） (2025-10-02T03:35:46Z)
SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文参考訳（メタデータ） (2025-09-02T16:18:40Z)
Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文参考訳（メタデータ） (2025-08-27T15:39:46Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Normative Requirements Operationalization with Large Language Models [3.456725053685842]
規範的な非機能要件は、社会的、法的、倫理的、共感的、文化的規範の違反を避けるために、システムが観察しなければならない制約を規定する。近年の研究では、規範的要件を特定するためにドメイン固有言語を使用してこの問題に対処している。本稿では,システム機能の抽象表現間の意味的関係を抽出するために,大規模言語モデルを用いた補完的アプローチを提案する。
論文参考訳（メタデータ） (2024-04-18T17:01:34Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。