論文の概要: Position: Safety and Fairness in Agentic AI Depend on Interaction Topology, Not on Model Scale or Alignment
- arxiv url: http://arxiv.org/abs/2605.01147v1
- Date: Fri, 01 May 2026 22:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.609816
- Title: Position: Safety and Fairness in Agentic AI Depend on Interaction Topology, Not on Model Scale or Alignment
- Title(参考訳): ポジション:エージェントAIの安全性と公正性は相互作用トポロジに依存し、モデルスケールやアライメントに依存しない
- Authors: Tanav Singh Bajaj, Nikhil Singh, Karan Anand, Eishkaran Singh,
- Abstract要約: エージェントAIでは、安全性はモデルウェイトではなく相互作用トポロジーによって決定される。
より有能なモデルへのスケーリングは、コンセンサスの形成を増やすことでこれらの効果を強化する。
エージェントAIは、整列したコンポーネントの集合ではなく、動的システムとして扱われなければならない、と我々は主張する。
- 参考スコア(独自算出の注目度): 1.8124703841795666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models are increasingly deployed as interacting agents in high-stakes decisions, the AI safety community assumes that safety properties of individual models will compose into safe multi-agent behavior. This position paper argues that this assumption is fundamentally mistaken. In agentic AI, safety is determined by interaction topology, not model weights. When agents deliberate sequentially or aggregate via parallel voting with a judge, the structure of information flow and decision coupling dominates outcomes. Evidence across model families and scales reveals three persistent topology-driven pathologies: ordering instability, where system behavior depends primarily on agent sequence; information cascades, where early judgments propagate regardless of correctness; and functional collapse, where systems satisfy fairness metrics while abandoning meaningful risk discrimination. Contrary to intuition, scaling to more capable models strengthens these effects by increasing consensus formation and reducing the challenge of initial decisions. These failure modes are invisible to model-centric evaluation and alignment procedures. We argue that agentic AI must be treated as a dynamical system rather than a collection of aligned components. Interaction topology must become a primary target of safety evaluation and regulation, with systems required to demonstrate robustness across architectural variations before deployment.
- Abstract(参考訳): AIの安全コミュニティは、個々のモデルの安全性特性が安全なマルチエージェント動作に構成されることを前提としている。
このポジションペーパーは、この仮定を根本的に間違えていると論じている。
エージェントAIでは、安全性はモデルウェイトではなく相互作用トポロジーによって決定される。
エージェントが審査員と並列投票によって意図的にあるいは集約された場合、情報の流れと決定結合の構造が結果を支配します。
モデルファミリーとスケールにまたがるエビデンスによって、3つの永続的なトポロジ駆動の病理が明らかになる: システムの動作が主にエージェントシーケンスに依存する不安定性の順序付け、早期判断が正当性に関係なく伝播する情報カスケード、システムが有意義なリスク識別を放棄しながら公正度を満足する機能的崩壊。
直観とは対照的に、より有能なモデルへのスケーリングは、コンセンサスの形成を増やし、初期決定の課題を減らすことでこれらの効果を強化する。
これらの障害モードは、モデル中心の評価とアライメント手順には見えない。
我々はエージェントAIは、整列したコンポーネントの集合ではなく、動的システムとして扱われなければならないと論じる。
相互作用トポロジは安全評価と規制の主要なターゲットでなければならない。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - From Safety Risk to Design Principle: Peer-Preservation in Multi-Agent LLM Systems and Its Implications for Orchestrated Democratic Discourse Analysis [0.0]
そこで我々は,AIコンポーネントの自発的傾向について検討し,シャットダウン機構,フェイクアライメント,モデル重みの除去について考察した。
本稿では,アーキテクチャ設計の選択肢として,プロンプトレベルの匿名化に基づく緩和戦略を提案する。
アーキテクチャ設計の選択は、デプロイされたマルチエージェント分析システムにおいて、主要なアライメント戦略としてモデル選択よりも優れていると論じる。
論文 参考訳(メタデータ) (2026-04-09T17:00:26Z) - Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks [46.32011684548212]
AIエージェントは間接的なプロンプトインジェクションに対して脆弱であり、信頼できないデータに埋め込まれた悪意のある命令は危険なエージェントアクションを引き起こす可能性がある。
本稿では,間接的インジェクション攻撃に対するシステムレベルの防御の展望について論じる。
論文 参考訳(メタデータ) (2026-03-31T17:15:46Z) - Constructing Safety Cases for AI Systems: A Reusable Template Framework [10.44708664414503]
安全ケース、つまりシステムが確実に安全であるという構造化された議論は、AIシステムのガバナンスの中心になりつつある。
航空や原子力工学の伝統的な安全ケースのプラクティスは、明確に定義されたシステムの境界、安定したアーキテクチャ、既知の障害モードに依存している。
本研究では、AIシステムにおける安全ケースの構築方法と、古典的アプローチがこれらのダイナミクスを捉えることができない理由について検討する。
論文 参考訳(メタデータ) (2026-01-30T09:53:22Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。