論文の概要: From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness
- arxiv url: http://arxiv.org/abs/2602.12285v1
- Date: Wed, 21 Jan 2026 02:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.519803
- Title: From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness
- Title(参考訳): バイザード・チャットボットからバイザード・エージェントへ:LLMエージェント・ロバストネスにおける役割割り当て効果の検討
- Authors: Linbo Cao, Lihao Sun, Yang Yue,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト生成を超えた現実的な影響で行動可能な自律エージェントとして、ますます多くデプロイされている。
テキスト生成におけるペルソナによるバイアスは十分に文書化されているが、エージェントタスクのパフォーマンスへの影響は未解明のままである。
人口動態に基づくペルソナ割り当ては, LLMエージェントの行動を変化させ, 様々な領域で性能を低下させることができることを示す最初のシステマティックケーススタディを示す。
- 参考スコア(独自算出の注目度): 5.572574491501413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as autonomous agents capable of actions with real-world impacts beyond text generation. While persona-induced biases in text generation are well documented, their effects on agent task performance remain largely unexplored, even though such effects pose more direct operational risks. In this work, we present the first systematic case study showing that demographic-based persona assignments can alter LLM agents' behavior and degrade performance across diverse domains. Evaluating widely deployed models on agentic benchmarks spanning strategic reasoning, planning, and technical operations, we uncover substantial performance variations - up to 26.2% degradation, driven by task-irrelevant persona cues. These shifts appear across task types and model architectures, indicating that persona conditioning and simple prompt injections can distort an agent's decision-making reliability. Our findings reveal an overlooked vulnerability in current LLM agentic systems: persona assignments can introduce implicit biases and increase behavioral volatility, raising concerns for the safe and robust deployment of LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成を超えた現実的な影響で行動可能な自律エージェントとして、ますます多くデプロイされている。
テキスト生成におけるペルソナによるバイアスは十分に文書化されているが、エージェントタスクのパフォーマンスに対する影響は、そのような影響がより直接的な運用上のリスクをもたらすにもかかわらず、ほとんど解明されていない。
本研究は, LLMエージェントの行動を変化させ, 様々な領域で性能を低下させることができることを示す最初のシステマティックケーススタディである。
戦略的推論、計画、技術的操作にまたがるエージェントベンチマーク上で広くデプロイされたモデルを評価することで、タスク非関連なペルソナの手がかりによって駆動される最大26.2%のパフォーマンスの劣化が明らかになる。
これらのシフトはタスクタイプやモデルアーキテクチャにまたがって現れ、ペルソナ条件付けと単純なプロンプトインジェクションがエージェントの意思決定の信頼性を歪める可能性があることを示している。
ペルソナ代入は暗黙のバイアスを導入し,行動のボラティリティを高め,LLMエージェントの安全で堅牢な展開への懸念を高めることができる。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Current Agents Fail to Leverage World Model as Tool for Foresight [61.82522354207919]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2026-01-07T13:15:23Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。