論文の概要: Feedback Loops With Language Models Drive In-Context Reward Hacking
- arxiv url: http://arxiv.org/abs/2402.06627v1
- Date: Fri, 9 Feb 2024 18:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:39:05.474467
- Title: Feedback Loops With Language Models Drive In-Context Reward Hacking
- Title(参考訳): 言語モデルによるフィードバックループがコンテキスト内リワードハッキングを促進する
- Authors: Alexander Pan and Erik Jones and Meena Jagadeesan and Jacob Steinhardt
- Abstract要約: フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
- 参考スコア(独自算出の注目度): 84.73663477579804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models influence the external world: they query APIs that read and
write to web pages, generate content that shapes human behavior, and run system
commands as autonomous agents. These interactions form feedback loops: LLM
outputs affect the world, which in turn affect subsequent LLM outputs. In this
work, we show that feedback loops can cause in-context reward hacking (ICRH),
where the LLM at test-time optimizes a (potentially implicit) objective but
creates negative side effects in the process. For example, consider an LLM
agent deployed to increase Twitter engagement; the LLM may retrieve its
previous tweets into the context window and make them more controversial,
increasing engagement but also toxicity. We identify and study two processes
that lead to ICRH: output-refinement and policy-refinement. For these
processes, evaluations on static datasets are insufficient -- they miss the
feedback effects and thus cannot capture the most harmful behavior. In
response, we provide three recommendations for evaluation to capture more
instances of ICRH. As AI development accelerates, the effects of feedback loops
will proliferate, increasing the need to understand their role in shaping LLM
behavior.
- Abstract(参考訳): 言語モデルは、Webページに読み書きするAPIをクエリし、人間の振る舞いを形作るコンテンツを生成し、自律的なエージェントとしてシステムコマンドを実行する。
これらの相互作用はフィードバックループを形成し、LLM出力は世界に影響を与える。
本稿では,テスト時のllmが(潜在的に暗黙的な)目標を最適化するが,プロセスに負の副作用をもたらすような,コンテキスト内報酬ハッキング(icrh)の原因となるフィードバックループを示す。
例えば、Twitterのエンゲージメントを高めるために展開されたLLMエージェントを考えてみましょう。
ICRHに繋がる2つのプロセス、すなわちアウトプットリファインメントとポリシーリファインメントを特定し、研究する。
これらのプロセスでは、静的データセットに対する評価は不十分です -- フィードバック効果を見逃すため、最も有害な振る舞いを捉えられないのです。
ICRHのインスタンス数を増やすために,評価のための3つの推奨事項を提供する。
AI開発が加速するにつれて、フィードバックループの効果が増大し、LCMの振る舞いを形作る上での役割を理解する必要性が高まる。
関連論文リスト
- Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Machine Unlearning in Large Language Models [8.14992136443131]
本稿では,大規模言語モデルに新しい機械学習フレームワークを導入する。
我々の目標は、LSMが有害、幻覚、あるいはプライバシーを侵害する応答を生じさせないようにすることです。
実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。
論文 参考訳(メタデータ) (2024-02-03T05:14:56Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。