論文の概要: Modeling Pathology-Like Behavioral Patterns in Language Models Through Behavioral Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.22356v1
- Date: Thu, 21 May 2026 11:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.235628
- Title: Modeling Pathology-Like Behavioral Patterns in Language Models Through Behavioral Fine-Tuning
- Title(参考訳): 行動微調整による言語モデルにおける病理様行動パターンのモデル化
- Authors: Nicola Milano, Davide Marocco,
- Abstract要約: 大規模言語モデルは、人間のような振る舞いをモデル化するための計算ツールとして、ますます使われている。
本稿では,構造化意思決定タスクの微調整によるモデルポリシーの修正を行う行動誘導フレームワークを提案する。
次に、この挙動最適化が生成分布の系統的変化をもたらすかどうかを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used as computational tools for modeling human-like behavior. We introduce a behavioral induction framework that modifies model policies through fine-tuning on structured decision-making tasks: using synthetic datasets inspired by maladaptive behavioral patterns, including depression and paranoia, we train transformer-based language models to consistently select specific classes of actions across diverse contexts. We then test whether this behavioral optimization produces systematic changes in generative distributions. Across two architectures, fine-tuned models show stable, context-general shifts in next-token probability distributions, including increased probability assigned to negative and threat-related interpretations in open-ended language tasks. These effects generalize beyond training contexts and are detectable in qualitative completions, psychometric-style evaluations, and quantitative distributional metrics such as Jensen-Shannon divergence. Induced behavioral profiles also show partial specificity. Models optimized for different behavioral patterns exhibit dissociable response tendencies across evaluation probes, suggesting that structured behavioral training produces differentiated policy-level biases rather than generic distributional skew. We interpret these findings as evidence that consistent behavioral optimization in LLMs can generate stable behavioral and distributional patterns consistent with altered latent priors, linking action selection and language generation. More broadly, the results support a view of LLMs as policy-based systems in which behavioral constraints shape emergent representational structure, highlighting their potential as controlled testbeds for studying the relationship between behavior, interpretation, and generative language in computational models of cognition.
- Abstract(参考訳): 大規模言語モデルは、人間のような振る舞いをモデル化するための計算ツールとして、ますます使われている。
抑うつやパラノイアを含む不適応な行動パターンにインスパイアされた合成データセットを用いて、トランスフォーマーに基づく言語モデルを用いて、さまざまな文脈における特定の行動のクラスを一貫して選択する。
次に、この挙動最適化が生成分布の系統的変化をもたらすかどうかを検証する。
2つのアーキテクチャにわたって、微調整されたモデルでは、オープンエンド言語タスクにおいて、負および脅威に関連する解釈に割り当てられる確率の増加を含む、次の確率分布における安定な、コンテキスト一般のシフトが示される。
これらの効果は訓練の文脈を超えて一般化され、定性的な完了、心理測定的な評価、ジェンセン=シャノンの発散のような量的分布の指標で検出できる。
行動プロファイルは部分的特異性を示す。
異なる行動パターンに最適化されたモデルは、評価プローブ間で解離反応傾向を示し、構造化された行動訓練は、一般的な分布スキューではなく、分化した政策レベルのバイアスを生み出すことを示唆している。
これらの知見を,LLMにおける一貫した行動最適化が,変化した潜伏前と一致した安定な行動パターンや分布パターンを生成できることを示す証拠として解釈する。
より広義には、行動制約が創発的表現構造を形成し、認知の計算モデルにおける行動、解釈、生成言語の関係を研究するための制御テストベッドとしての可能性を強調する政策ベースシステムとしてのLCMの見解を支持する。
関連論文リスト
- Evaluating Pragmatic Reasoning in Large Language Models: Evidence from Scalar Diversity [2.538209532048867]
本研究は,複数のモデルおよび実験環境における直接確率測定とメタinguistic promptingの比較を行った。
その結果, 評価手法が相反する結果が得られず, 実用的行動はモデルファミリ, 促進戦略, タスク構造によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2026-05-09T16:28:50Z) - LLMs Reading the Rhythms of Daily Life: Aligned Understanding for Behavior Prediction and Generation [53.62804271492357]
大きな言語モデル(LLM)は、その意味的豊かさ、強い解釈可能性、生成能力により、有望な方向性を提供する。
本稿では,LLMを構造化カリキュラム学習プロセスを通じて人間行動モデリングに統合する,行動理解アライメント(BUA)を提案する。
BUAは、事前訓練された行動モデルからのシーケンス埋め込みをアライメントアンカーとして採用し、3段階のカリキュラムを通じてLLMをガイドし、マルチラウンドの対話設定では予測と生成機能を導入している。
論文 参考訳(メタデータ) (2026-04-26T07:34:37Z) - D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文 参考訳(メタデータ) (2026-01-25T14:59:09Z) - Can Interpretation Predict Behavior on Unseen Data? [11.280404893713213]
解釈可能性の研究は、モデルが特定のメカニズムに対するターゲットの介入にどのように反応するかを予測することを目的としている。
本稿では,分布外モデル行動を予測するツールとして,解釈可能性の約束と課題について考察する。
論文 参考訳(メタデータ) (2025-07-08T23:07:33Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Regularized Neural Ensemblers [55.15643209328513]
本研究では,正規化ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ランダムにベースモデル予測をドロップすることで,アンサンブルモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性の低い境界を提供し、過度な適合を減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Learning Disentangled Representations for Natural Language Definitions [0.0]
テキストデータの連続的な構文的・意味的規則性は、構造的バイアスと生成的要因の両方をモデルに提供するのに有効である、と我々は主張する。
本研究では,文型,定義文の表現的・意味的に密接なカテゴリに存在する意味的構造を利用して,不整合表現を学習するための変分オートエンコーダを訓練する。
論文 参考訳(メタデータ) (2022-09-22T14:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。