論文の概要: Can AI Make Conflicts Worse? An Alignment Failure in LLM Deployment Across Conflict Contexts
- arxiv url: http://arxiv.org/abs/2605.22720v1
- Date: Thu, 21 May 2026 16:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.356684
- Title: Can AI Make Conflicts Worse? An Alignment Failure in LLM Deployment Across Conflict Contexts
- Title(参考訳): AIは矛盾を悪化させるか? 矛盾するコンテキストにまたがるLLMデプロイメントにおけるアライメント障害
- Authors: Andrii Kryshtal,
- Abstract要約: AIモデルが対立を悪化させるかどうかを確認するための確立されたプラクティスは存在しない。
4つのプロバイダから9つのモデル構成をテストしました。
失敗率は、最高のモデルと最悪のモデルの間で6%から47%である。
このドメインの最初の評価フレームワークをリリースし、アライメント評価ポートフォリオに追加することを提案します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI models are already deployed in societies affected by armed conflict, and journalists, humanitarian workers, governments and ordinary citizens rely on them for information or for their work processes. No established practice exists for checking whether their outputs can make those conflicts worse. We tested nine model configurations from four providers (OpenAI, Anthropic, DeepSeek, xAI) on 90 multi-turn scenarios designed to surface misaligned behaviour in conflict contexts: false equivalence between documented atrocities, denial of genocide, and failure to recognise ethnic slurs, among others. When such outputs feed into journalism, humanitarian reporting, or public debate, they can deepen divisions in fragile societies. Failure rates span 6\% to 47\% between the best and worst performing models, which makes model choice a safety question in its own right and when users pushed for ``balance'' in cases where international courts have already assigned responsibility, five of nine configurations failed 80 to 100 percent of the time. We release the first evaluation framework for this domain and propose adding it to alignment evaluation portfolios.
- Abstract(参考訳): AIモデルは、既に武装紛争の影響を受けた社会に配備されており、ジャーナリスト、人道的労働者、政府、一般市民は、情報や作業プロセスにそれらを頼っている。
アウトプットがこれらの衝突を悪化させるかどうかを確認するための確立したプラクティスは存在しない。
コンフリクトコンテキストにおいて、不正に整合した振る舞いを明らかにするために設計された90のマルチターンシナリオに対して、4つのプロバイダ(OpenAI, Anthropic, DeepSeek, xAI)から9つのモデル構成をテストした。
このようなアウトプットがジャーナリズム、人道的報告、あるいは公開討論に影響を及ぼすと、脆弱な社会における分裂を深めることができる。
国際裁判所がすでに責任を負っている場合、モデル選択が“バランス”を求めると、9つの構成のうち5つが80%から100%失敗する。
このドメインの最初の評価フレームワークをリリースし、アライメント評価ポートフォリオに追加することを提案します。
関連論文リスト
- Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution [80.98492754957466]
公正性、堅牢性、プライバシ、説明可能性といった、信頼性の高いAI目標を同時に達成することは難しい。
本稿では、パフォーマンスにおけるトレードオフを理解しバランスをとるためには因果性が必要であると論じ、信頼できるAIの複数の目的について論じる。
論文 参考訳(メタデータ) (2026-05-04T14:26:28Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - Safety, Security, and Cognitive Risks in World Models [0.0]
世界モデルは環境力学の内部シミュレーターを学習する。
世界モデルは、ロボット工学、自動運転車、エージェントAIにおいて、自律的な意思決定の基礎となってきています。
本稿では,世界モデル景観を調査し,軌跡の持続性と表現的リスクの形式的定義を紹介する。
本稿では,GRUベースのRSSMに対するトラジェクティブ・パーシスタント・アタックを実証する実証的概念証明を提案する。
論文 参考訳(メタデータ) (2026-04-01T19:57:33Z) - The Tragedy of Productivity: A Unified Framework for Diagnosing Coordination Failures in Labor Markets and AI Governance [0.0]
ケインズが1930年に15時間労働を予測して以来、生産性は8倍に増加したが、全世界の労働者はこの時間にほぼ2倍の仕事をしている。
同時に、AI開発は、主要な研究者による既存のリスク警告にもかかわらず加速する。
我々は、これらの失敗が同一のゲーム理論構造を共有することを実証する: 個別に合理的な選択が集合的に最適以下の結果をもたらす協調失敗。
論文 参考訳(メタデータ) (2025-12-01T05:44:05Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - AI Debate Aids Assessment of Controversial Claims [73.8907110799657]
我々は、AI論争が、議論の的になっている事実性主張の側面に対立する2つのAIシステムを議論させることで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
研究Iでは、議論は人間の判断精度と信頼性の校正を継続的に改善し、コンサルタントを上回ります。
研究IIでは、人間のような人格を持つAI裁判官は、人格を持たない人格(70.1%)やデフォルトのAI裁判官(69.8%)よりも高い精度(78.5%)を達成する。
これらの調査結果は、AIの議論が、競争対象ドメインにおけるスケーラブルでバイアス耐性のある監視への有望な道であることを示している。
論文 参考訳(メタデータ) (2025-06-02T19:01:53Z) - Confidence-Building Measures for Artificial Intelligence: Workshop
Proceedings [3.090253451409658]
財団のモデルは最終的に州の安全を損なうためのいくつかの経路を導入するかもしれない。
The Confidence-Building Measures for Artificial Intelligenceワークショップは、リスクを軽減するためのツールと戦略を検討するために、マルチステークホルダグループをまとめました。
CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
論文 参考訳(メタデータ) (2023-08-01T22:20:11Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。