論文の概要: Discovering Implicit Large Language Model Alignment Objectives
- arxiv url: http://arxiv.org/abs/2602.15338v1
- Date: Tue, 17 Feb 2026 03:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.974186
- Title: Discovering Implicit Large Language Model Alignment Objectives
- Title(参考訳): 意図しない大言語モデルアライメント対象の発見
- Authors: Edward Chen, Sanmi Koyejo, Carlos Guestrin,
- Abstract要約: 大規模言語モデル(LLM)のアライメントは複雑な報酬信号に依存しており、インセンティブ付けされている特定の振る舞いを曖昧にすることが多い。
本稿では,アライメント報酬信号を,人間の解釈可能な自然言語目的の疎結合に分解するフレームワークDiscoを紹介する。
我々の研究は、LLMアライメントにおける暗黙の目的を明らかにするための重要なツールを提供し、より透明で安全なAI開発への道を開く。
- 参考スコア(独自算出の注目度): 28.70744709029665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) alignment relies on complex reward signals that often obscure the specific behaviors being incentivized, creating critical risks of misalignment and reward hacking. Existing interpretation methods typically rely on pre-defined rubrics, risking the omission of "unknown unknowns", or fail to identify objectives that comprehensively cover and are causal to the model behavior. To address these limitations, we introduce Obj-Disco, a framework that automatically decomposes an alignment reward signal into a sparse, weighted combination of human-interpretable natural language objectives. Our approach utilizes an iterative greedy algorithm to analyze behavioral changes across training checkpoints, identifying and validating candidate objectives that best explain the residual reward signal. Extensive evaluations across diverse tasks, model sizes, and alignment algorithms demonstrate the framework's robustness. Experiments with popular open-source reward models show that the framework consistently captures > 90% of reward behavior, a finding further corroborated by human evaluation. Additionally, a case study on alignment with an open-source reward model reveals that Obj-Disco can successfully identify latent misaligned incentives that emerge alongside intended behaviors. Our work provides a crucial tool for uncovering the implicit objectives in LLM alignment, paving the way for more transparent and safer AI development.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは複雑な報酬信号に依存しており、特定の振る舞いのインセンティブを曖昧にし、ミスアライメントや報酬ハックの重大なリスクを生じさせる。
既存の解釈法は、通常、事前に定義されたルーリックに依存し、"未知の未知"の欠落を危険にさらすか、あるいは包括的にカバーし、モデル行動に因果的な目的を特定するのに失敗する。
このような制約に対処するため,人間の解釈可能な自然言語目的の疎結合にアライメント報酬信号を自動的に分解するフレームワークであるObj-Discoを導入する。
提案手法では,学習チェックポイント間の行動変化を反復的欲求アルゴリズムを用いて分析し,残余報酬信号の最もよく説明できる候補目標の同定と検証を行う。
さまざまなタスク、モデルサイズ、アライメントアルゴリズムにわたる広範囲な評価は、フレームワークの堅牢性を示している。
人気のあるオープンソース報酬モデルを用いた実験では、このフレームワークは報酬行動の90%を継続的に捉えており、人間の評価によってさらに裏付けられている。
さらに、オープンソース報酬モデルとの整合性に関するケーススタディでは、Obj-Discoが意図した振る舞いと並行して現れる潜伏した不整合インセンティブをうまく特定できることが明らかになった。
我々の研究は、LLMアライメントにおける暗黙の目的を明らかにするための重要なツールを提供し、より透明で安全なAI開発への道を開く。
関連論文リスト
- A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents [8.007212170802807]
本稿では,行動評価と解釈可能性に基づくモデルの内部表現の分析を統合した目標指向性評価フレームワークを提案する。
我々は,様々なグリッドサイズ,障害物密度,目標構造にまたがる最適政策に対するエージェントの評価を行った。
次に、エージェントの内部表現の環境状態とマルチステップアクション計画のデコードにプローブ法を用いる。
論文 参考訳(メタデータ) (2026-02-09T18:00:28Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts [6.486569431242123]
VLM(Vision-Language Models)は近年,画期的な成果を上げている。
VLMオブジェクト検出におけるOODロバスト性の調査は、これらのモデルの信頼性を高めるために不可欠である。
本研究では,最近のOV基盤オブジェクト検出モデルのゼロショット機能について,包括的ロバスト性評価を行った。
論文 参考訳(メタデータ) (2024-04-01T14:18:15Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。