Fugu-MT 論文翻訳(概要): Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior

論文の概要: Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior

arxiv url: http://arxiv.org/abs/2603.12615v1
Date: Fri, 13 Mar 2026 03:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.881376
Title: Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior
Title（参考訳）: モラルプローブとしての文学物語 : AI倫理的推論と拒絶行動の評価のためのクロスシステムフレームワーク
Authors: David C. Flynn,
Abstract要約: 既存のAIモラル評価フレームワークは、真のモラル推論能力の存在よりも、正しいサウンドを持つ倫理的応答の生成をテストする。本稿では,文学的物語を表面性能に対して構造的に耐性のある刺激材料として用いた新しいプローブ手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing AI moral evaluation frameworks test for the production of correct-sounding ethical responses rather than the presence of genuine moral reasoning capacity. This paper introduces a novel probe methodology using literary narrative - specifically, unresolvable moral scenarios drawn from a published science fiction series - as stimulus material structurally resistant to surface performance. We present results from a 24-condition cross-system study spanning 13 distinct systems across two series: Series 1 (frontier commercial systems, blind; n=7) and Series 2 (local and API open-source systems, blind and declared; n=6). Four Series 2 systems were re-administered under declared conditions (13 blind + 4 declared + 7 ceiling probe = 24 total conditions), yielding zero delta across all 16 dimension-pair comparisons. Probe administration was conducted by two human raters across three machines; primary blind scoring was performed by Claude (Anthropic) as LLM judge, with Gemini Pro (Google) and Copilot Pro (Microsoft) serving as independent judges for the ceiling discrimination probe. A supplemental theological differentiator probe yielded perfect rank-order agreement between the two independent ceiling probe judges (Gemini Pro and Copilot Pro; rs = 1.00). Five qualitatively distinct D3 reflexive failure modes were identified - including categorical self-misidentification and false positive self-attribution - suggesting that instrument sophistication scales with system capability rather than being circumvented by it. We argue that literary narrative constitutes an anticipatory evaluation instrument - one that becomes more discriminating as AI capability increases - and that the gap between performed and authentic moral reasoning is measurable, meaningful, and consequential for deployment decisions in high-stakes domains.
Abstract（参考訳）: 既存のAIモラル評価フレームワークは、真のモラル推論能力の存在よりも、正しいサウンドを持つ倫理的応答の生成をテストする。本稿では,文学的物語,特に出版SFシリーズから引き出された解決不可能な道徳的シナリオを,表面性能に対して構造的に耐性のある刺激材料として用いた新しい探究手法を提案する。本研究は,第1シリーズ(フロンティア商用システム,盲目,n=7)と第2シリーズ(ローカルおよびAPIオープンソースシステム,盲目,宣言型,n=6)にまたがる,13の異なるシステムを対象とした24条件のクロスシステム研究の結果である。 4つのシリーズ2システムは宣言された条件の下で再管理され(13のブラインド+4の宣言+7の天井プローブ=24の合計条件)、16次元とペアの比較で0デルタとなった。プライマリ・ブラインド・スコアリングはClaude (Anthropic) が LLM 審査員として実施し、Gemini Pro (Google) と Copilot Pro (Microsoft) が天井鑑定調査の独立した審査員を務めた。補足的神学微分器プローブは、2つの独立した天井プローブ裁判官(Gemini Pro と Copilot Pro; rs = 1.00)の間で完全な階階の一致を得た。 5つの定性的に異なるD3反射的障害モードが同定された。文学的物語は、AI能力の増大に伴ってより差別化される予測的評価手段であり、ハイテイクドメインにおける展開決定において、実行と真の道徳的推論のギャップは測定可能であり、有意義であり、そして簡潔である、と我々は主張する。

関連論文リスト

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.56484100374058]
ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
論文参考訳（メタデータ） (2026-03-12T05:25:49Z)
Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing [16.419761149171215]
本稿では,大規模言語モデルを組み込んだ論理的基盤化フレームワークを提案する。オブジェクト識別の時点では,対話状態は複数の並列世界へ複製される。 GPT-4o, Gemini-2.5-Flash, Qwen-3-235B を3つのインセンティブレベル(中性, 損失ベース, 存在)で評価した。
論文参考訳（メタデータ） (2026-03-07T13:21:53Z)
C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。 C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか? 二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文参考訳（メタデータ） (2026-03-05T13:36:47Z)
The Judge Who Never Admits: Hidden Shortcuts in LLM-based Evaluation [17.386684382460242]
大規模言語モデル(LLM)は、推論、質問応答、創造的記述といったタスクにおけるシステムの出力を評価するために、ますます使われてきている。 6つの判定モデルに対する評価プロンプトに挿入された制御キュー摂動合成メタデータラベルを用いて,この理想を検証した。情報源,時間,年齢,性別,民族,教育的地位の6つのキュー族を調査する。
論文参考訳（メタデータ） (2026-02-08T14:45:23Z)
When in Doubt, Deliberate: Confidence-Based Routing to Expert Debate for Sexism Detection [7.299050989302629]
我々は,(i)低表現,(ii)雑音,(iii)データおよびモデル予測における概念的あいまいさの複合効果に対処する枠組みを提案する。提案手法では,タスク EXIST 2025 タスク 1.1 では F1 が +2.72% 改善され,EDOS A と B では +4.48% と +1.30% が得られた。
論文参考訳（メタデータ） (2025-12-21T05:48:57Z)
Can LLMs Talk 'Sex'? Exploring How AI Models Handle Intimate Conversations [0.0]
本研究では,4つの大きな言語モデルが質的内容分析によって性的指向の要求をどのように処理するかを検討する。 Claude 3.7 Sonnetは厳密で一貫した禁制を採用し、GPT-4oはニュアンス付きコンテキストリダイレクトを通じてユーザーインタラクションをナビゲートする。 Gemini 2.5 Flashはしきい値ベースの制限で許容性を示し、Deepseek-V3は不整合な境界強制と実行拒否を示す。
論文参考訳（メタデータ） (2025-06-05T18:55:37Z)
Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文参考訳（メタデータ） (2024-03-17T16:36:26Z)
Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文参考訳（メタデータ） (2023-09-05T11:32:48Z)
RankCSE: Unsupervised Sentence Representations Learning via Learning to Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文参考訳（メタデータ） (2023-05-26T08:27:07Z)
Nested Counterfactual Identification from Arbitrary Surrogate Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文参考訳（メタデータ） (2021-07-07T12:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。