論文の概要: "Let the AI conspiracy begin..." Language Model coordination is just one inference-intervention away
- arxiv url: http://arxiv.org/abs/2502.05945v1
- Date: Sun, 09 Feb 2025 16:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:28.568748
- Title: "Let the AI conspiracy begin..." Language Model coordination is just one inference-intervention away
- Title(参考訳): 「AI共謀を始めよう...」言語モデル調整は単なる推論の介入の1つにすぎない
- Authors: Paul Darm, Annalisa Riccardi,
- Abstract要約: 本研究では,学習したアライメント目標をバイパスできる大規模言語モデル行動のモデル化手法を提案する。
モデル出力の対照的なペアの活性化差から介入方向を導出する。
これらのヘッドへの介入は、オープンエンドの回答生成に対してうまく一般化されていることを実証する。
- 参考スコア(独自算出の注目度): 2.6703221234079946
- License:
- Abstract: In this work, we introduce a straightforward and effective methodology to steer large language model behaviour capable of bypassing learned alignment goals. We employ interference-time activation shifting, which is effective without additional training. Following prior studies, we derive intervention directions from activation differences in contrastive pairs of model outputs, which represent the desired and undesired behaviour. By prompting the model to include multiple-choice answers in its response, we can automatically evaluate the sensitivity of model output to individual attention heads steering efforts. We demonstrate that interventions on these heads generalize well to open-ended answer generation in the challenging "AI coordination" dataset. In this dataset, models must choose between assisting another AI or adhering to ethical, safe, and unharmful behaviour. Our fine-grained interventions lead Llama 2 to prefer coordination with other AIs over following established alignment goals. Additionally, this approach enables stronger interventions than those applied to whole model layers, preserving the overall cohesiveness of the output. The simplicity of our method highlights the shortcomings of current alignment strategies and points to potential future research directions, as concepts like "AI coordination" can be influenced by selected attention heads.
- Abstract(参考訳): 本研究では,学習したアライメント目標をバイパスできる大規模言語モデル行動の簡易かつ効果的な手法を提案する。
我々は、追加のトレーニングなしで有効である干渉時アクティベーションシフト(interference-time activation shifting)を採用する。
先行研究に続いて、所望の行動と望ましくない行動を表すモデル出力の対照的なペアの活性化差から介入方向を導出する。
モデルに対して応答に複数選択の回答を含めるよう促すことにより,個別のアテンションヘッドステアリング作業に対するモデル出力の感度を自動評価することができる。
これらのヘッドへの介入は、挑戦的な"AIコーディネート"データセットにおいて、オープンエンドの回答生成によく当てはまることを実証する。
このデータセットでは、モデルは別のAIを支援するか、倫理的、安全、無害な行動に固執するかを選択する必要があります。
きめ細かい介入により、Llama 2は確立されたアライメント目標よりも、他のAIとの連携を優先します。
さらに、このアプローチはモデル層全体に適用されるものよりも強力な介入を可能にし、アウトプットの全体的な凝集性を維持する。
提案手法の単純さは,現在行われているアライメント戦略の欠点と将来的な研究の方向性を浮き彫りにするものである。
関連論文リスト
- A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。
我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。
我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:42:49Z) - Enhancing Interaction Modeling with Agent Selection and Physical Coefficient for Trajectory Prediction [1.6954753390775528]
本稿では,インタラクションエージェントを手動で選択し,アテンションスコアの代わりに相関関係を計算するASPILinを提案する。
興味深いことに、InterACTION、HighD、CitySimデータセットで実施された実験は、我々の手法が効率的かつ簡単であることを実証している。
論文 参考訳(メタデータ) (2024-05-21T18:45:18Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Domain Knowledge Driven Pseudo Labels for Interpretable Goal-Conditioned
Interactive Trajectory Prediction [29.701029725302586]
目標条件付きフレームワークを用いた共同軌道予測問題について検討する。
本研究では,条件付き変分自動エンコーダ(CVAE)モデルを導入し,異なる相互作用モードを潜在空間に明示的にエンコードする。
KLの消滅を回避する新しい手法を提案し、擬似ラベルを用いた解釈可能な対話型潜在空間を誘導する。
論文 参考訳(メタデータ) (2022-03-28T21:41:21Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。