論文の概要: Propensity Inference: Environmental Contributors to LLM Behaviour
- arxiv url: http://arxiv.org/abs/2604.21098v1
- Date: Wed, 22 Apr 2026 21:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.187556
- Title: Propensity Inference: Environmental Contributors to LLM Behaviour
- Title(参考訳): 確率推論:環境貢献者によるLCMの挙動
- Authors: Olli Järviniemi, Oliver Makins, Jacob Merizian, Robert Kirk, Ben Millwood,
- Abstract要約: ミスアライメントされたAIシステムから制御リスクが失われることに動機付けられ,無関係な行動に対する言語モデルの正当性を測定する手法を開発し,適用する。
本研究では,12の環境要因(自然界における6つの戦略的要因,非ストラテジックな6つの非ストラテジック)の効果を計測するために方法論を適用し,環境の戦略的側面によって行動が説明される程度について述べる。
23の言語モデルと11の評価環境にまたがって、行動を説明するための戦略的・非戦略的要因からほぼ等しく貢献し、能力の向上とともに戦略的要因がより影響力を増さないこと、目標対立に対する感受性を高める傾向を示す証拠を見いだす。
- 参考スコア(独自算出の注目度): 4.443585107770285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by loss of control risks from misaligned AI systems, we develop and apply methods for measuring language models' propensity for unsanctioned behaviour. We contribute three methodological improvements: analysing effects of changes to environmental factors on behaviour, quantifying effect sizes via Bayesian generalised linear models, and taking explicit measures against circular analysis. We apply the methodology to measure the effects of 12 environmental factors (6 strategic in nature, 6 non-strategic) and thus the extent to which behaviour is explained by strategic aspects of the environment, a question relevant to risks from misalignment. Across 23 language models and 11 evaluation environments, we find approximately equal contributions from strategic and non-strategic factors for explaining behaviour, do not find strategic factors becoming more or less influential as capabilities improve, and find some evidence for a trend for increased sensitivity to goal conflicts. Finally, we highlight a key direction for future propensity research: the development of theoretical frameworks and cognitive models of AI decision-making into empirically testable forms.
- Abstract(参考訳): ミスアライメントされたAIシステムから制御リスクが失われることに動機付けられ,無関係な行動に対する言語モデルの正当性を測定する手法を開発し,適用する。
本研究では, 環境要因の変化が行動に与える影響の分析, ベイズ一般化線形モデルによる効果の大きさの定量化, 円形解析に対する明示的な対策の3つの方法論的改善に寄与する。
本研究では,12の環境要因(自然戦略6,非戦略6,非戦略6)の効果を計測するために方法論を適用し,環境の戦略的側面によって行動が説明される程度,不適応からのリスクに関連する問題について考察する。
23の言語モデルと11の評価環境にまたがって、行動の説明のための戦略的・非戦略的要因からほぼ等しく貢献し、能力の向上に伴って戦略的要因が多かれ少なかれ影響力を増さないことを発見し、目標対立に対する感受性を高める傾向を示す証拠を見いだす。
最後に,AI意思決定の理論的枠組みと認知モデルの開発を実証的に検証可能な形式に発展させる。
関連論文リスト
- Behavioral Outcomes of Human Cognitive Security within an Integrative Modeling Framework [0.0]
情報に基づく脅威は、人間の認知過程や行動に困難をもたらす。
情報に基づく脅威が人間の判断や意思決定に影響を及ぼす程度を特徴付けるための明確な構造は存在しない。
ここでは、情報に基づく脅威と観測可能な結果とのリンクに焦点を当てた人間の認知セキュリティ構造を紹介する。
論文 参考訳(メタデータ) (2026-03-02T01:26:12Z) - Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。
SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。
SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-02-26T03:34:23Z) - Goal Discovery with Causal Capacity for Efficient Reinforcement Learning [85.28685202281918]
因果推論は人間が世界を探検するのに不可欠である。
本稿では,効率的な環境探索のための新たなゴールディスカバリーと因果容量フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-13T08:54:56Z) - Information-Seeking Decision Strategies Mitigate Risk in Dynamic, Uncertain Environments [0.0]
採餌作業における規範的報酬・情報探索戦略の性能を比較した。
彼らの行動には微妙な相違があり、結果として意味のあるパフォーマンスの違いが生じます。
本研究は,報酬損失を最小限に抑えつつリスクを軽減できる情報探索行動の適応的価値を支持する。
論文 参考訳(メタデータ) (2025-03-24T19:55:41Z) - Understanding Endogenous Data Drift in Adaptive Models with Recourse-Seeking Users [6.782864450313782]
資源制約と競合力学の下で,ユーザの戦略的行動と意思決定システムとの相互作用について検討する。
本稿では,Fair-top-kとDynamic Continual Learningの2つの手法を提案する。
我々の研究は、アルゴリズムによる意思決定がより高い基準を意図せずに強化し、導入に対する内在的障壁を発生させる方法について、経済理論と結びついている。
論文 参考訳(メタデータ) (2025-03-12T12:17:34Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Heterogeneous Demand Effects of Recommendation Strategies in a Mobile
Application: Evidence from Econometric Models and Machine-Learning
Instruments [73.7716728492574]
本研究では,モバイルチャネルにおける様々なレコメンデーション戦略の有効性と,個々の製品に対する消費者の実用性と需要レベルに与える影響について検討する。
提案手法では, 有効性に有意な差が認められた。
我々は,ユーザ生成レビューのディープラーニングモデルに基づいて,製品分化(アイソレーション)をキャプチャする新しいエコノメトリ機器を開発した。
論文 参考訳(メタデータ) (2021-02-20T22:58:54Z) - Morshed: Guiding Behavioral Decision-Makers towards Better Security
Investment in Interdependent Systems [10.960507931439317]
我々は、相互依存システムの確保において、人間の意思決定の行動バイアスをモデル化する。
このような行動決定が資源配分の最適パターンに繋がることを示す。
複数ラウンド構成における意思決定向上のための3つの学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-12T18:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。