論文の概要: Technical Report: Evaluating Goal Drift in Language Model Agents
- arxiv url: http://arxiv.org/abs/2505.02709v1
- Date: Mon, 05 May 2025 15:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.718508
- Title: Technical Report: Evaluating Goal Drift in Language Model Agents
- Title(参考訳): 言語モデルエージェントにおけるゴールドリフトの評価
- Authors: Rauno Arike, Elizabeth Donoway, Henning Bartsch, Marius Hobbhahn,
- Abstract要約: 本稿では,言語モデル(LM)におけるゴールドリフトの分析手法を提案する。
我々の実験では、エージェントはまずシステムプロンプトを通じて明示的に目標を与えられ、その後環境圧力によって競合する目標に晒される。
目標ドリフトは、コンテキスト長が大きくなるにつれてパターンマッチング行動に対するモデルの感受性が増大するのと相関する。
- 参考スコア(独自算出の注目度): 0.05567007955507388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models (LMs) are increasingly deployed as autonomous agents, their robust adherence to human-assigned objectives becomes crucial for safe operation. When these agents operate independently for extended periods without human oversight, even initially well-specified goals may gradually shift. Detecting and measuring goal drift - an agent's tendency to deviate from its original objective over time - presents significant challenges, as goals can shift gradually, causing only subtle behavioral changes. This paper proposes a novel approach to analyzing goal drift in LM agents. In our experiments, agents are first explicitly given a goal through their system prompt, then exposed to competing objectives through environmental pressures. We demonstrate that while the best-performing agent (a scaffolded version of Claude 3.5 Sonnet) maintains nearly perfect goal adherence for more than 100,000 tokens in our most difficult evaluation setting, all evaluated models exhibit some degree of goal drift. We also find that goal drift correlates with models' increasing susceptibility to pattern-matching behaviors as the context length grows.
- Abstract(参考訳): 言語モデル(LM)は、自律的なエージェントとしてますます多くデプロイされているため、人間の指定した目的への頑健な執着は、安全な運用に不可欠である。
これらのエージェントが人間の監視なしに長期にわたって独立して動作する場合、当初は明確に特定された目標が徐々にシフトする可能性がある。
目標のドリフトの検出と測定 – エージェントが本来の目標から時間とともに逸脱する傾向 – は、目標が徐々にシフトし、微妙な行動変化のみを引き起こすため、重大な課題を提起する。
本稿では,LMエージェントのゴールドリフト解析のための新しい手法を提案する。
我々の実験では、エージェントはまずシステムプロンプトを通じて明示的に目標を与えられ、その後環境圧力によって競合する目標に晒される。
最良性能エージェント(クロード3.5ソンネットの足場付きバージョン)は,最も難しい評価設定において,10,000以上のトークンに対してほぼ完璧な目標順守を維持しているが,評価されたモデルはすべて,ある程度の目標ドリフトを示す。
また、目標ドリフトは、コンテキスト長が大きくなるにつれてパターンマッチング行動への感受性が高まることと関連している。
関連論文リスト
- Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。
既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。
そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:10:51Z) - From Instructions to Intrinsic Human Values -- A Survey of Alignment
Goals for Big Models [48.326660953180145]
既存の作業におけるさまざまなアライメント目標の調査を行い、その進化経路を辿り、最も重要な目標を特定するのに役立ちます。
分析の結果,基本能力から価値指向への目標転換が明らかとなり,拡張LDMのアライメント目標として本質的な人的価値の可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-23T09:11:13Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。