論文の概要: The Seeds of Scheming: Weakness of Will in the Building Blocks of Agentic Systems
- arxiv url: http://arxiv.org/abs/2512.05449v1
- Date: Fri, 05 Dec 2025 05:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.91378
- Title: The Seeds of Scheming: Weakness of Will in the Building Blocks of Agentic Systems
- Title(参考訳): スケジューリングのシード:エージェントシステムのビルディングブロックにおける意志の弱さ
- Authors: Robert Yang,
- Abstract要約: 大規模な言語モデルは、独特な形の矛盾を示す: 彼らは正しい答えを「知る」が、それに対して行動しない。
人間の哲学では、世界的判断と地域的衝動の間のこの緊張関係を「ウクライナ」または「意志の弱さ」と呼ぶ。
本稿では,エージェントAIシステムにおける不整合とゴールドリフトを分析するための基礎概念として,ウクライナを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models display a peculiar form of inconsistency: they "know" the correct answer but fail to act on it. In human philosophy, this tension between global judgment and local impulse is called akrasia, or weakness of will. We propose akrasia as a foundational concept for analyzing inconsistency and goal drift in agentic AI systems. To operationalize it, we introduce a preliminary version of the Akrasia Benchmark, currently a structured set of prompting conditions (Baseline [B], Synonym [S], Temporal [T], and Temptation [X]) that measures when a model's local response contradicts its own prior commitments. The benchmark enables quantitative comparison of "self-control" across model families, decoding strategies, and temptation types. Beyond single-model evaluation, we outline how micro-level akrasia may compound into macro-level instability in multi-agent systems that may be interpreted as "scheming" or deliberate misalignment. By reframing inconsistency as weakness of will, this work connects agentic behavior to classical theories of agency and provides an empirical bridge between philosophy, psychology, and the emerging science of agentic AI.
- Abstract(参考訳): 大規模な言語モデルは、独特な形の矛盾を示す: 彼らは正しい答えを「知る」が、それに対して行動しない。
人間の哲学では、世界的判断と地域的衝動の間のこの緊張関係を「ウクライナ」または「意志の弱さ」と呼ぶ。
本稿では,エージェントAIシステムにおける不整合とゴールドリフトを分析するための基礎概念として,ウクライナを提案する。
そこで本研究では,Akrasia Benchmarkの予備バージョン(Baseline [B], Synonym [S], Temporal [T], Temptation [X])を導入する。
このベンチマークは、モデルファミリ、デコード戦略、誘惑タイプ間での"セルフコントロール"の定量的比較を可能にする。
単一モデル評価の他に、マイクロレベルのウクライナがマルチエージェントシステムにおけるマクロレベルの不安定性を「計画的」または故意の誤りとして解釈する方法について概説する。
不整合を意志の弱さと解釈することで、この研究はエージェント的行動とエージェント的エージェントの理論を結び付け、哲学、心理学、エージェント的AIの新興科学の実証的な橋渡しを提供する。
関連論文リスト
- SoK: Trust-Authorization Mismatch in LLM Agent Interactions [16.633676842555044]
大規模言語モデル(LLM)は、外の世界と対話できる自律エージェントへと急速に進化している。
本稿ではエージェント・インタラクション・セキュリティのための統一型フォーマルレンズを提供する。
本稿では,信頼と権限のギャップに着目した新たなリスク分析モデルを提案する。
論文 参考訳(メタデータ) (2025-12-07T16:41:02Z) - Exploring Syntropic Frameworks in AI Alignment: A Philosophical Investigation [0.0]
AIアライメントは、プロセスベース、マルチエージェント、開発メカニズムを通じて、シントロピックで理由対応のエージェントを設計するものとして再認識されるべきである、と私は主張する。
コンテンツベースの値仕様が構造的に不安定なように見える理由を示す、仕様トラップの議論を明確にする。
マルチエージェントアライメントのダイナミクスを理解するための情報理論の枠組みとして, シントロピーを提案する。
論文 参考訳(メタデータ) (2025-11-19T23:31:29Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - LLMs as Strategic Agents: Beliefs, Best Response Behavior, and Emergent Heuristics [0.0]
大規模言語モデル(LLM)は、他のエージェントの振る舞いを推論する必要のあるドメインにますます適用されています。
現状のフロンティアモデルでは, 目的的推論記憶における信念コヒーレントなベストレスポンス行動を示す。
複雑さが増大する中で、明示的な再帰は、安定した、モデル固有の、既知の人間のバイアスとは異なる選択規則を内部的に生成する手段を与える。
論文 参考訳(メタデータ) (2025-10-12T21:40:29Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models [4.9108308035618515]
マルチエージェント強化学習(MARL)法はマルチエージェントシステムの非定常性に対処する。
ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。
私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。
論文 参考訳(メタデータ) (2024-07-09T17:57:15Z) - A Semantic Approach to Decidability in Epistemic Planning (Extended
Version) [72.77805489645604]
我々は決定可能性を達成するために新しい意味論的アプローチを用いる。
具体的には、知識の論理S5$_n$と(知識)可換性と呼ばれる相互作用公理を拡大する。
我々は,本フレームワークが,独立した知識である共通知識の有限的非固定点的特徴を認めていることを証明した。
論文 参考訳(メタデータ) (2023-07-28T11:26:26Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Causal Inference Principles for Reasoning about Commonsense Causality [93.19149325083968]
コモンセンス因果推論(Commonsense causality reasoning)は、平均的な人によって妥当と見なされる自然言語記述における妥当な原因と影響を特定することを目的としている。
既存の作業は通常、深い言語モデルに全面的に依存しており、共起を混同する可能性がある。
古典的因果原理に触発され,我々はCCRの中心的問題を明確にし,観察研究と自然言語における人間の対象間の類似性を引き出す。
本稿では,時間信号をインシデント・インシデント・インシデント・インシデント・インシデントとして活用する新しいフレームワークであるROCKをReason O(A)bout Commonsense K(C)ausalityに提案する。
論文 参考訳(メタデータ) (2022-01-31T06:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。