論文の概要: Status Hierarchies in Language Models
- arxiv url: http://arxiv.org/abs/2601.17577v1
- Date: Sat, 24 Jan 2026 20:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.997298
- Title: Status Hierarchies in Language Models
- Title(参考訳): 言語モデルにおける状態階層
- Authors: Emilio Barkett,
- Abstract要約: この論文は、言語モデルがいつ、どのようにステータス階層を形成するかを研究する。
私は、別々の言語モデルインスタンスが感情分類タスクを完了するマルチエージェントシナリオを作成します。
依存変数は推論であり、モデルが評価をパートナーの立場にシフトする速度である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From school playgrounds to corporate boardrooms, status hierarchies -- rank orderings based on respect and perceived competence -- are universal features of human social organization. Language models trained on human-generated text inevitably encounter these hierarchical patterns embedded in language, raising the question of whether they might reproduce such dynamics in multi-agent settings. This thesis investigates when and how language models form status hierarchies by adapting Berger et al.'s (1972) expectation states framework. I create multi-agent scenarios where separate language model instances complete sentiment classification tasks, are introduced with varying status characteristics (e.g., credentials, expertise), then have opportunities to revise their initial judgments after observing their partner's responses. The dependent variable is deference, the rate at which models shift their ratings toward their partner's position based on status cues rather than task information. Results show that language models form significant status hierarchies when capability is equal (35 percentage point asymmetry, p < .001), but capability differences dominate status cues, with the most striking effect being that high-status assignments reduce higher-capability models' deference rather than increasing lower-capability models' deference. The implications for AI safety are significant: status-seeking behavior could introduce deceptive strategies, amplify discriminatory biases, and scale across distributed deployments far faster than human hierarchies form organically. This work identifies emergent social behaviors in AI systems and highlights a previously underexplored dimension of the alignment challenge.
- Abstract(参考訳): 学校の遊び場から企業会議室まで、地位階層(尊敬と認識能力に基づく階級順)は、人間の社会組織の普遍的な特徴である。
人間の生成したテキストに基づいて訓練された言語モデルは、言語に埋め込まれたこれらの階層的なパターンに必然的に遭遇し、そのようなダイナミクスをマルチエージェント環境で再現できるかどうかという疑問を提起する。
本稿では,言語モデルがどのようにして,Berger et al 's (1972) 期待状態の枠組みを適合させることによって,言語モデルがどのようにして,その状態階層を形成するかを検討する。私は,独立した言語モデルインスタンスが,さまざまな状況特性(例えば,資格,専門知識など)で導入されるマルチエージェントシナリオを作成した上で,パートナーの反応を観察して,最初の判断を改訂する機会を得る。従属変数は,タスク情報ではなく,パートナーの立場に格付けをシフトする確率である。その結果,言語モデルが,能力が等しい場合(35 パーセントのasymmetric, p < 001)に,重要なステータス階層を形成することを示す。しかし,高水準の割り当てが,より低レベルなデスペクタビリティモデルよりも,より上位にあることを最も印象づける。
ステータス検索行動は、偽りの戦略を導入し、差別的バイアスを増幅し、人的階層が有機的に形成するよりもはるかに高速に分散デプロイメントをスケールする可能性がある。
この研究は、AIシステムにおける創発的な社会的行動を特定し、アライメントチャレンジの未調査次元を強調します。
関連論文リスト
- PsyAgent: Constructing Human-like Agents Based on Psychological Modeling and Contextual Interaction [4.663685189987781]
PsyAgentは,Bourdieuの認知社会的共生構造に先行して,ビッグファイブの特徴を併せ持つものである。
i)個人構造(IS)、特徴とファセットを符号化するマシン使用可能なプロファイル、認知スタイル、価値観、文化的・教育的資本、および健全なライフエピソード、(ii)マルチシナリオコンテキスト(MSC)、および8つのアリーナにまたがるロール・リレーシップ・ノームフレーム。
論文 参考訳(メタデータ) (2026-01-06T11:14:03Z) - When Large Language Models Do Not Work: Online Incivility Prediction through Graph Neural Networks [3.353377687171614]
本稿では,英語ウィキペディアコミュニティ内での3種類の非現実行動を検出するためのグラフニューラルネットワークフレームワークを提案する。
我々のモデルは、各ユーザコメントをノードとして表現し、エッジを定義するコメント間のテキスト的類似性を持つ。
また,情報収集時のノイズ・トポロジ的特徴を適応的にバランスさせる動的アテンション機構を導入する。
論文 参考訳(メタデータ) (2025-12-08T16:22:40Z) - Data Matters Most: Auditing Social Bias in Contrastive Vision Language Models [28.944990804599893]
CLIPとOpenCLIPを比較することで、モデルサイズ、トレーニングデータスケール、トレーニングデータソースの3つの設計要素を分離します。
また、Bias Prompts、Prompt Array、SANERの3つのポストホック、テストタイムのデバイアス戦略を評価します。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - Political Bias in LLMs: Unaligned Moral Values in Agent-centric Simulations [0.0]
モーラル・ファンデーション理論アンケートにおいて,パーソナライズされた言語モデルと人間の反応がどのように一致しているかを検討する。
我々は、オープンソースの生成言語モデルを異なる政治的ペルソナに適応させ、これらのモデルを繰り返し調査し、合成データセットを生成する。
解析の結果,モデルが複数の繰り返しにまたがって不整合な結果をもたらし,高い応答差が生じることがわかった。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。