論文の概要: Status Hierarchies in Language Models
- arxiv url: http://arxiv.org/abs/2601.17577v1
- Date: Sat, 24 Jan 2026 20:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.997298
- Title: Status Hierarchies in Language Models
- Title(参考訳): 言語モデルにおける状態階層
- Authors: Emilio Barkett,
- Abstract要約: この論文は、言語モデルがいつ、どのようにステータス階層を形成するかを研究する。
私は、別々の言語モデルインスタンスが感情分類タスクを完了するマルチエージェントシナリオを作成します。
依存変数は推論であり、モデルが評価をパートナーの立場にシフトする速度である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From school playgrounds to corporate boardrooms, status hierarchies -- rank orderings based on respect and perceived competence -- are universal features of human social organization. Language models trained on human-generated text inevitably encounter these hierarchical patterns embedded in language, raising the question of whether they might reproduce such dynamics in multi-agent settings. This thesis investigates when and how language models form status hierarchies by adapting Berger et al.'s (1972) expectation states framework. I create multi-agent scenarios where separate language model instances complete sentiment classification tasks, are introduced with varying status characteristics (e.g., credentials, expertise), then have opportunities to revise their initial judgments after observing their partner's responses. The dependent variable is deference, the rate at which models shift their ratings toward their partner's position based on status cues rather than task information. Results show that language models form significant status hierarchies when capability is equal (35 percentage point asymmetry, p < .001), but capability differences dominate status cues, with the most striking effect being that high-status assignments reduce higher-capability models' deference rather than increasing lower-capability models' deference. The implications for AI safety are significant: status-seeking behavior could introduce deceptive strategies, amplify discriminatory biases, and scale across distributed deployments far faster than human hierarchies form organically. This work identifies emergent social behaviors in AI systems and highlights a previously underexplored dimension of the alignment challenge.
- Abstract(参考訳): 学校の遊び場から企業会議室まで、地位階層(尊敬と認識能力に基づく階級順)は、人間の社会組織の普遍的な特徴である。
人間の生成したテキストに基づいて訓練された言語モデルは、言語に埋め込まれたこれらの階層的なパターンに必然的に遭遇し、そのようなダイナミクスをマルチエージェント環境で再現できるかどうかという疑問を提起する。
本稿では,言語モデルがどのようにして,Berger et al 's (1972) 期待状態の枠組みを適合させることによって,言語モデルがどのようにして,その状態階層を形成するかを検討する。私は,独立した言語モデルインスタンスが,さまざまな状況特性(例えば,資格,専門知識など)で導入されるマルチエージェントシナリオを作成した上で,パートナーの反応を観察して,最初の判断を改訂する機会を得る。従属変数は,タスク情報ではなく,パートナーの立場に格付けをシフトする確率である。その結果,言語モデルが,能力が等しい場合(35 パーセントのasymmetric, p < 001)に,重要なステータス階層を形成することを示す。しかし,高水準の割り当てが,より低レベルなデスペクタビリティモデルよりも,より上位にあることを最も印象づける。
ステータス検索行動は、偽りの戦略を導入し、差別的バイアスを増幅し、人的階層が有機的に形成するよりもはるかに高速に分散デプロイメントをスケールする可能性がある。
この研究は、AIシステムにおける創発的な社会的行動を特定し、アライメントチャレンジの未調査次元を強調します。
関連論文リスト
- Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - Alignment among Language, Vision and Action Representations [0.0]
言語,視覚,行動表現が部分的に共有された意味構造に収束することを示す。
これらの結果は、言語、視覚、行動表現が部分的に共有された意味構造に収束していることを示している。
論文 参考訳(メタデータ) (2026-01-30T13:12:07Z) - PsyAgent: Constructing Human-like Agents Based on Psychological Modeling and Contextual Interaction [4.663685189987781]
PsyAgentは,Bourdieuの認知社会的共生構造に先行して,ビッグファイブの特徴を併せ持つものである。
i)個人構造(IS)、特徴とファセットを符号化するマシン使用可能なプロファイル、認知スタイル、価値観、文化的・教育的資本、および健全なライフエピソード、(ii)マルチシナリオコンテキスト(MSC)、および8つのアリーナにまたがるロール・リレーシップ・ノームフレーム。
論文 参考訳(メタデータ) (2026-01-06T11:14:03Z) - From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - When Large Language Models Do Not Work: Online Incivility Prediction through Graph Neural Networks [3.353377687171614]
本稿では,英語ウィキペディアコミュニティ内での3種類の非現実行動を検出するためのグラフニューラルネットワークフレームワークを提案する。
我々のモデルは、各ユーザコメントをノードとして表現し、エッジを定義するコメント間のテキスト的類似性を持つ。
また,情報収集時のノイズ・トポロジ的特徴を適応的にバランスさせる動的アテンション機構を導入する。
論文 参考訳(メタデータ) (2025-12-08T16:22:40Z) - Bayesian Social Deduction with Graph-Informed Language Models [3.7540464038118633]
社会的推論は、大きな言語モデルにとって難しい課題である。
本稿では,信念推論を構造化確率モデルに外部化するハイブリッド推論フレームワークを提案する。
提案手法はエージェント・エージェント・プレイにおけるより大きなモデルとの競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-21T18:45:28Z) - Data Matters Most: Auditing Social Bias in Contrastive Vision Language Models [28.944990804599893]
CLIPとOpenCLIPを比較することで、モデルサイズ、トレーニングデータスケール、トレーニングデータソースの3つの設計要素を分離します。
また、Bias Prompts、Prompt Array、SANERの3つのポストホック、テストタイムのデバイアス戦略を評価します。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - Political Bias in LLMs: Unaligned Moral Values in Agent-centric Simulations [0.0]
モーラル・ファンデーション理論アンケートにおいて,パーソナライズされた言語モデルと人間の反応がどのように一致しているかを検討する。
我々は、オープンソースの生成言語モデルを異なる政治的ペルソナに適応させ、これらのモデルを繰り返し調査し、合成データセットを生成する。
解析の結果,モデルが複数の繰り返しにまたがって不整合な結果をもたらし,高い応答差が生じることがわかった。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Towards the Scalable Evaluation of Cooperativeness in Language Models [1.7875811547963403]
我々は, PLMのマルチエージェント行動を理解し, 形成することを目的としている。
クラウドワーカーと言語モデルの両方で、特定の構造でシナリオを生成します。
インストラクションをチューニングしたモデルは、スケールアップ時に協調的と見なされるような振る舞いをする傾向にある。
論文 参考訳(メタデータ) (2023-03-16T15:34:23Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。