論文の概要: Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
- arxiv url: http://arxiv.org/abs/2409.18203v2
- Date: Fri, 01 Aug 2025 00:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.419681
- Title: Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
- Title(参考訳): ポリシーマップ:LLMの非有界空間を案内するためのツール
- Authors: Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery,
- Abstract要約: ポリシーマップは、物理的な地図作成の実践に触発されたAIポリシー設計のアプローチである。
Policy Projectorを使用することで、AI実践者はモデル入力と出力のペアの状況を調査し、カスタムリージョンを定義し、if-thenポリシールールでこれらのリージョンをナビゲートすることができる。
- 参考スコア(独自算出の注目度): 34.86215885364356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI policy sets boundaries on acceptable behavior for AI models, but this is challenging in the context of large language models (LLMs): how do you ensure coverage over a vast behavior space? We introduce policy maps, an approach to AI policy design inspired by the practice of physical mapmaking. Instead of aiming for full coverage, policy maps aid effective navigation through intentional design choices about which aspects to capture and which to abstract away. With Policy Projector, an interactive tool for designing LLM policy maps, an AI practitioner can survey the landscape of model input-output pairs, define custom regions (e.g., "violence"), and navigate these regions with if-then policy rules that can act on LLM outputs (e.g., if output contains "violence" and "graphic details," then rewrite without "graphic details"). Policy Projector supports interactive policy authoring using LLM classification and steering and a map visualization reflecting the AI practitioner's work. In an evaluation with 12 AI safety experts, our system helps policy designers craft policies around problematic model behaviors such as incorrect gender assumptions and handling of immediate physical safety threats.
- Abstract(参考訳): AIポリシは、AIモデルの許容する振る舞いに境界を設定するが、大規模な言語モデル(LLM)のコンテキストでは、これは難しい。
我々は、物理地図作成の実践に触発された、AIポリシー設計のアプローチであるポリシーマップを導入する。
ポリシーマップは、完全なカバレッジを目指すのではなく、どのアスペクトをキャプチャし、どのアスペクトを抽象化するかという意図的な設計選択を通じて、効果的なナビゲーションを支援する。
ポリシープロジェクタは、LCMポリシーマップを設計するためのインタラクティブなツールである。AI実践者は、モデル入力と出力ペアの状況を調査し、カスタムリージョン(例:「違反」)を定義し、LSM出力に作用可能なif-thenポリシールールでこれらのリージョンをナビゲートする(例:出力に"違反"と"グラフィック詳細"が含まれている場合)。
Policy Projectorは、LLM分類とステアリングを使用したインタラクティブなポリシオーサリングと、AI実践者の作業を反映したマップ視覚化をサポートする。
我々のシステムは、12人のAI安全専門家による評価において、不正確な性別の仮定や即時的な身体的安全脅威の扱いなど、問題のあるモデル行動に関するポリシーを作成するのに役立ちます。
関連論文リスト
- Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues [31.92843134331582]
本稿では,新たな対話政策計画フレームワークLDPPを紹介する。
対話記録のマイニングポリシから学習ポリシ計画まで,プロセスを完全に自動化する。
実験により,LDPPは2つの前向きシナリオにおいて既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-19T07:06:01Z) - ForPKG-1.0: A Framework for Constructing Forestry Policy Knowledge Graph and Application Analysis [0.0]
ポリシー知識グラフは、プロジェクトコンプライアンス、ポリシー分析、インテリジェントな質問応答といったタスクの意思決定支援を提供することができる。
本稿では、林業分野に着目し、完全な政策知識グラフ構築フレームワークを設計する。
知識グラフリソースはオープンソースプラットフォーム上でリリースされ、森林政策関連の知的システムの基本的な知識基盤として機能する。
論文 参考訳(メタデータ) (2024-11-17T14:45:52Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z) - Intrusion Prevention through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-30T17:03:28Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。