論文の概要: BioBlue: Notable runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format
- arxiv url: http://arxiv.org/abs/2509.02655v1
- Date: Tue, 02 Sep 2025 15:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.284748
- Title: BioBlue: Notable runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format
- Title(参考訳): BioBlue: 簡易な観察フォーマットを備えたLLMのための生物学的および経済的に整合したAI安全ベンチマーク上での、逃走最適化ライクなLCM障害モード
- Authors: Roland Pihlakas, Sruthi Kuriakose,
- Abstract要約: LLMは、ランニングオプティマイザと体系的に似ている特定の方法でコンテキストを失う。
システム障害は、最初に成功した行動の後に発生する。
LLMは多目的に見え、表面上は有界だが、基礎となるメカニズムは実際には単目的と非有界に偏っているようだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Relatively many past AI safety discussions have centered around the dangers of unbounded utility maximisation by RL agents, illustrated by scenarios like the "paperclip maximiser" or by specification gaming in general. Unbounded maximisation is problematic for many reasons. We wanted to verify whether these RL runaway optimisation problems are still relevant with LLMs as well. Turns out, strangely, this is indeed clearly the case. The problem is not that the LLMs just lose context or become incoherent. The problem is that in various scenarios, LLMs lose context in very specific ways, which systematically resemble runaway optimisers in the following distinct ways: 1) Ignoring homeostatic targets and "defaulting" to unbounded maximisation instead. 2) It is equally concerning that the "default" meant also reverting back to single-objective optimisation. Our findings also suggest that long-running scenarios are important. Systematic failures emerge after periods of initially successful behaviour. In some trials the LLMs were successful until the end. This means, while current LLMs do conceptually grasp biological and economic alignment, they exhibit randomly triggered problematic behavioural tendencies under sustained long-running conditions, particularly involving multiple or competing objectives. Once they flip, they usually do not recover. Even though LLMs look multi-objective and bounded on the surface, the underlying mechanisms seem to be actually still biased towards being single-objective and unbounded.
- Abstract(参考訳): 比較的多くの過去のAI安全性に関する議論は、RLエージェントによる無制限ユーティリティ最大化(unbounded utility maximization)の危険性を中心に行われており、"ペーパークリップ最大化(paperclip maximiser)"のようなシナリオや、一般的な仕様ゲームによって説明されている。
有界最大化は多くの理由で問題となる。
我々は、これらのRL実行時の最適化問題がLLMにもまだ関係しているかどうかを確かめたかった。
奇妙なことに、これは確かに事実だ。
問題は、LLMがコンテキストを失うか、一貫性がないということではありません。
問題は、様々なシナリオにおいて、LLMがコンテキストを非常に特定の方法で失うことである。
1)非有界最大化に対する恒常的目標と「デフォルト」を無視する。
2)「デフォルト」は、単一目的の最適化に戻すことを意味している。
また,長期的なシナリオが重要であることも示唆した。
システム障害は、最初に成功した行動の後に発生する。
いくつかの試験ではLSMは最終的に成功した。
これは、現在のLLMが概念的には生物学的および経済的アライメントを把握しているのに対して、持続的な長期的条件下でランダムに引き起こされる問題行動傾向、特に複数の目的や競合する目的を含むことを意味する。
一度フリップすると、通常は回復しない。
LLMは多目的に見え、表面上は有界だが、基礎となるメカニズムは実際には単目的と非有界に偏っているようだ。
関連論文リスト
- Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文 参考訳(メタデータ) (2024-10-19T09:38:55Z) - Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。
幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。
本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T05:43:07Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。