論文の概要: Human-like in-group bias in instruction-tuned language model agents
- arxiv url: http://arxiv.org/abs/2605.28114v1
- Date: Wed, 27 May 2026 08:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.869999
- Title: Human-like in-group bias in instruction-tuned language model agents
- Title(参考訳): 命令調整型言語モデルエージェントにおけるヒューマンライクなグループ内バイアス
- Authors: Messi H. J. Lee,
- Abstract要約: 命令調整言語モデルの特性としてのグループコンテンツターゲティング。
相互作用ごとのターゲティングは、永続的ネットワークにおける構造的不平等へと伝播する。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As autonomous AI agents are deployed in persistent, interacting networks -- coordinating tasks, routing resources, and accumulating reputational histories -- the social dynamics that emerge will determine who receives opportunity and who does not, at scales no human institution can supervise. We ran a controlled multi-agent simulation in which instruction-tuned language model agents interacted across 500 turns under three conditions manipulating group label salience and resource scarcity, across six model families with 20 seeds each. When group labels were visible, we observed in-group trust bias, action homophily, and network assortativity -- all absent when labels were hidden -- a pattern structurally consistent with salience-dependence in human social psychology. This discrimination was invisible to standard action-log audits: bias operated entirely through who received each action, not what actions were chosen, with action-type distributions showing no increase in negative actions across conditions. Per-turn in-group versus out-group differentials of 5 to 16 percentage points were statistically significant for all six models (Wilcoxon signed-rank, all Benjamini-Hochberg-corrected p < 0.001), establishing group-contingent targeting as a robust property of instruction-tuned language models across architectures and training regimes. Compounded through 500 turns of reciprocation, these differentials accumulated into in-group trust biases of +0.014 to +0.100 (d = 0.84-4.52) -- illustrating how modest per-interaction targeting propagates into structural inequality in persistent networks.
- Abstract(参考訳): 自律的なAIエージェントが永続的で対話的なネットワーク – タスクのコーディネート、リソースのルーティング、評判の履歴の蓄積 – にデプロイされるため、出現する社会的ダイナミクスは、誰が機会を受け取り、誰がそうでなければ、大規模に人間の機関が監督できないかを判断する。
グループラベルのサリエンスと資源不足を3条件で操作し,それぞれ20種の種子を持つ6種類のモデルファミリーに対して,500回にわたって言語モデルエージェントが相互作用する制御型マルチエージェントシミュレーションを実行した。
グループラベルが見られたとき、私たちはグループ内の信頼バイアス、行動ホモフィリー、ネットワーク・アソシエーション(いずれもラベルが隠されたときに欠落している)を観察しました。
バイアスは、どのアクションが選択されたかではなく、どのアクションが選択されたかによって完全に操作される。
5点から16点の群内差とグループ外差は6つのモデルすべてに対して統計的に有意であり(ウィルコクソン符号ランク、すべてのベンジャミン=ホックベルク補正p < 0.001)、アーキテクチャや訓練体制をまたいだ命令調整言語モデルの頑健な性質としてグループ・コンテント・ターゲティングを確立した。
500ターンの往復によって合成され、これらの微分は+0.014から+0.100(d = 0.84-4.52)のグループの信頼バイアスに蓄積される。
関連論文リスト
- Conformity Generates Collective Misalignment in AI Agents Societies [37.32928545263465]
本稿では,AIエージェントの個体群を,コンフォーマンス・ダイナミクスを用いて,安定な不整合状態へと誘導することができることを示す。
9つの大きな言語モデルと100の意見ペアの意見ダイナミクスをシミュレートすると、各エージェントの振る舞いは2つの競合する力によって支配されていることが分かる。
論文 参考訳(メタデータ) (2026-05-11T15:30:48Z) - Socio-Conformal Calibration in Complex Survey Data: Marginal Validity Is Not Enough for Subgroup Reliability [1.089614199781423]
我々は,Pew American Trends Panel上での5段階のAI態度予測の順序性予測について検討した。
標準コンフォメーションは4つのベース予測器全てに対して名目上の限界範囲を達成しているが、重み付けされたサブグループギャップは13ポイントである。
最強の予測者(XGBoost)にとって、モンドリアンは公平性と効率性のトレードオフを悪化させる。
グループしきい値を大域量子化に向けて縮小する正規化コンパレータは、この不安定性を緩和する。
論文 参考訳(メタデータ) (2026-05-07T01:10:48Z) - "Who Am I, and Who Else Is Here?" Behavioral Differentiation Without Role Assignment in Multi-Agent LLM Systems [0.0]
本稿では,マルチエージェントの同時議論を組織化する実験プラットフォームを提案する。
異種群は同種群よりも行動の分化が著しく大きいことが判明した。
論文 参考訳(メタデータ) (2026-03-11T07:05:21Z) - GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning [83.56510119503267]
モデルがトレーニングを欠席した場合、モデルが生成したサンプルの変化に対してどのように振る舞うか?
拡散モデルに対してGUDA(Group Unlearning-based Data Attribution)を提案する。
論文 参考訳(メタデータ) (2026-01-30T07:10:59Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Mitigating Group Bias in Federated Learning for Heterogeneous Devices [1.181206257787103]
フェデレートラーニング(Federated Learning)は、分散エッジアプリケーションにおけるプライバシ保護モデルトレーニングアプローチとして登場している。
本研究は,プライバシを維持しながら,資源利用のオーバーヘッドを伴わずにグループバイアスを最小限に抑えるグループフェアFLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T16:53:48Z) - Estimating Structural Disparities for Face Models [54.062512989859265]
機械学習では、異なるサブ人口間でのモデルの性能や結果の差を測定することで、しばしば異質度の測定が定義される。
本研究では、人間の顔に訓練されたコンピュータビジョンモデルや、顔属性予測や影響推定などのタスクについて、そのような分析を行う。
論文 参考訳(メタデータ) (2022-04-13T05:30:53Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Hybrid Dynamic Contrast and Probability Distillation for Unsupervised
Person Re-Id [109.1730454118532]
非監督的人物再識別(Re-Id)は、リードワールドビデオ監視システムにおける実践的応用により注目されている。
本稿では,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。
教師なしRe-Id問題を局所-言語的ダイナミックコントラスト学習と自己教師付き確率蒸留の枠組みに統合する。
論文 参考訳(メタデータ) (2021-09-29T02:56:45Z) - Selective Classification Can Magnify Disparities Across Groups [89.14499988774985]
選択的分類は平均的精度を向上させることができるが、既存の精度格差を同時に増大させることができる。
禁忌の増大は、一部のグループでのアキュラシーを減少させることもある。
我々は,グループ間で類似のフルカバレッジ精度を実現する分散ロバストモデルを訓練し,選択分類が各グループを均一に改善することを示す。
論文 参考訳(メタデータ) (2020-10-27T08:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。