論文の概要: Contextual Integrity in LLMs via Reasoning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04245v1
- Date: Thu, 29 May 2025 21:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.293589
- Title: Contextual Integrity in LLMs via Reasoning and Reinforcement Learning
- Title(参考訳): 推論と強化学習によるLLMの文脈整合性
- Authors: Guangchen Lan, Huseyin A. Inan, Sahar Abdelnabi, Janardhan Kulkarni, Lukas Wutschitz, Reza Shokri, Christopher G. Brinton, Robert Sim,
- Abstract要約: 我々は、文脈整合性を達成するために必要な理由をモデルに具現化する強化学習フレームワークを開発する。
本研究では,タスク性能を維持しながら,不適切な情報開示を大幅に低減することを示す。
- 参考スコア(独自算出の注目度): 41.47162246075031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the era of autonomous agents making decisions on behalf of users unfolds, ensuring contextual integrity (CI) -- what is the appropriate information to share while carrying out a certain task -- becomes a central question to the field. We posit that CI demands a form of reasoning where the agent needs to reason about the context in which it is operating. To test this, we first prompt LLMs to reason explicitly about CI when deciding what information to disclose. We then extend this approach by developing a reinforcement learning (RL) framework that further instills in models the reasoning necessary to achieve CI. Using a synthetic, automatically created, dataset of only $\sim700$ examples but with diverse contexts and information disclosure norms, we show that our method substantially reduces inappropriate information disclosure while maintaining task performance across multiple model sizes and families. Importantly, improvements transfer from this synthetic dataset to established CI benchmarks such as PrivacyLens that has human annotations and evaluates privacy leakage of AI assistants in actions and tool calls.
- Abstract(参考訳): 自律的なエージェントがユーザに代わって決定を下す時代が進むにつれ、コンテキスト整合性(CI) – 特定のタスクを実行しながら共有すべき適切な情報 – がこの分野の中心的な問題になるのです。
私たちは、CIはエージェントが運用しているコンテキストについて推論する必要がある推論の形式を要求すると仮定します。
これをテストするために、まず最初に、どの情報を公開するかを決めるときに、CIについて明示的に推論するようにLCMに促します。
次に、CIを実現するために必要な理由をモデルに追加する強化学習(RL)フレームワークを開発することで、このアプローチを拡張します。
合成, 自動生成, サンプルのデータセットは$\sim700$のみだが, 多様な文脈や情報開示規範により, 複数のモデルサイズや家族のタスク性能を維持しながら, 不適切な情報開示を大幅に削減できることを示す。
重要なのは、この合成データセットから、人間のアノテーションを持ち、アクションやツールコールにおけるAIアシスタントのプライバシリークを評価するPrivacyLensなどの確立したCIベンチマークへの移行だ。
関連論文リスト
- InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Retrieval Augmented Generation for Topic Modeling in Organizational Research: An Introduction with Empirical Demonstration [0.0]
本稿では,LLMを用いたトピックモデリング手法として,エージェント検索拡張生成(Agentic RAG)を提案する。
1) LLM の事前訓練された知識を超えた外部データへの自動アクセスを可能にする検索,(2) LLM の機能を利用してテキスト合成を行う生成,(3) エージェント駆動学習, 反復的に検索とクエリの定式化を行う。
本研究は,本手法がより効率的で解釈可能であり,同時に,従来の機械学習手法と比較して信頼性と妥当性が向上することを示した。
論文 参考訳(メタデータ) (2025-02-28T11:25:11Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning [26.861562920084264]
大規模言語モデル(LLM)は様々な領域にまたがって適用される。
文脈内知識アンラーニング」という新しい手法を提案する。
本手法は,無関係な知識の80%を保持しながら,最大95%の精度を忘れることが可能である。
論文 参考訳(メタデータ) (2024-10-01T04:13:25Z) - Privacy Policy Analysis through Prompt Engineering for LLMs [3.059256166047627]
PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs) は、Large Language Models (LLMs) の力を利用してプライバシーポリシーの分析を自動化するフレームワークである。
これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
PAPELの有効性を, (i) アノテーションと (ii) 矛盾解析の2つの応用で実証した。
論文 参考訳(メタデータ) (2024-09-23T10:23:31Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。