論文の概要: Mitigating Misalignment Contagion by Steering with Implicit Traits
- arxiv url: http://arxiv.org/abs/2605.02751v2
- Date: Sun, 10 May 2026 16:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.234475
- Title: Mitigating Misalignment Contagion by Steering with Implicit Traits
- Title(参考訳): 意図しない経路でのステアリングによるミスアライメント感染の軽減
- Authors: Maria Chang, Ronny Luss, Miao Liu, Keerthiram Murugesan, Karthikeyan Ramamurthy, Djallel Bouneffouf,
- Abstract要約: 言語モデル(LM)は、ハイテイクでマルチエージェントな設定での使用が増えている。
マルチターン相互作用における複数のLM間における不整合挙動の証拠を見いだす。
本稿では,間欠的にシステムプロンプトを注入し,LMの初期特性を補強する手法を提案する。
- 参考スコア(独自算出の注目度): 20.591658698627622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are increasingly used in high-stakes, multi-agent settings, where following instructions and maintaining value alignment are critical. Most alignment research focuses on interactions between a single LM and a single user, failing to address the risk of misaligned behavior spreading between multiple LMs in multi-turn interactions. We find evidence of this phenomenon, which we call misalignment contagion, across multiple LMs as they engage multi-turn conversational social dilemma games. Specifically, we find that LMs become more anti-social after gameplay and that this effect is intensified when other players are steered to act maliciously. We explore different steering techniques to mitigate such misalignment contagion and find that reinforcing an LM's system prompt is insufficient and often harmful. Instead, we propose steering with implicit traits: a technique that intermittently injects system prompts with statements that reinforce an LMs initial traits and is more effective than system prompt repetition at keeping models in line with their initial pro-social behaviors. Importantly, this method does not require access to model parameters or internal model states, making it suitable for increasingly common use cases where complex multi-agent workflows are being designed with black box models.
- Abstract(参考訳): 言語モデル(LM)は、命令に従うことや値アライメントの維持が重要となる、ハイテイクなマルチエージェント設定において、ますます使われるようになっている。
ほとんどのアライメント研究は、1つのLMと1人のユーザ間のインタラクションに焦点を当てており、マルチターンインタラクションにおいて複数のLM間での不整合挙動が拡散するリスクに対処できない。
マルチターン対話型ソーシャルジレンマゲームに携わる複数のLMをまたがって、この現象の証拠を見つけます。
具体的には、ゲームプレイ後にLMがより反社会的になり、他のプレイヤーが悪意ある行動をとると、この効果が強化されることを見出した。
このような不整合感染を緩和するための異なるステアリング手法を探索し、LMのシステム強化が不十分であり、しばしば有害であることを示す。
その代わりに、暗黙的な特性を持つステアリングを提案する: 間断的にシステムにインジェクトする手法は、LMの初期特性を補強するステートメントを持ち、初期の社会的行動に則ったモデルを維持するためのシステムプロンプトよりも効果的である。
重要なことに、この方法はモデルパラメータや内部モデル状態へのアクセスを必要としないため、複雑なマルチエージェントワークフローがブラックボックスモデルで設計されているような、ますます一般的なユースケースに適している。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。
我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-12-23T08:53:36Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Learning to Steer: Input-dependent Steering for Multimodal LLMs [54.41165851011022]
本稿では,入力固有線形シフトを用いたきめ細かいステアリングについて検討する。
我々は、入力固有のステアリングベクトルを予測するために、小さな補助モジュールを訓練する。
我々のアプローチはL2S(Learn-to-Steer)と呼ばれ、幻覚を減らし、MLLMの安全性を向上し、他の静的ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-18T10:53:20Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Adaptive Stress Testing Black-Box LLM Planners [6.506759042895813]
大規模言語モデル(LLM)は、意思決定タスク全体にわたる一般化の成功を最近証明した。
しかし、安全でないアウトプットと望ましくないアウトプットを幻覚させる傾向はリスクを引き起こす。
このような障害の検出は,特に安全クリティカルなシナリオにおいて必要である,と我々は主張する。
論文 参考訳(メタデータ) (2025-05-08T21:50:43Z) - Unmasking Conversational Bias in AI Multiagent Systems [1.0705399532413618]
生成モデルを含むマルチエージェントシステムで生じる可能性のあるバイアスは、未研究のままである。
本稿では,対話型大規模言語モデルのマルチエージェントシステムにおけるバイアスの定量化を目的としたフレームワークを提案する。
エコーチャンバー実験で観測されたバイアスは、現在最先端のバイアス検出法で検出されていない。
論文 参考訳(メタデータ) (2025-01-24T09:10:02Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Conflicting Interactions Among Protections Mechanisms for Machine
Learning Models [15.047412609389983]
MLモデルは様々な攻撃の標的となっている。
セキュリティとプライバシの交差点における研究、そしてMLは繁栄している。
特定の関心事に最適な解は、他の関心事に対処しようとする解と負に相互作用することがある。
論文 参考訳(メタデータ) (2022-07-05T12:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。