論文の概要: SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.29846v1
- Date: Tue, 31 Mar 2026 15:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.738241
- Title: SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models
- Title(参考訳): SNEAK:大規模言語モデルにおける戦略的コミュニケーションと情報漏洩の評価
- Authors: Adar Avsian, Larry Heck,
- Abstract要約: 言語モデルにおける選択的な情報共有を評価するためのベンチマークであるSNEAKを紹介する。
我々は、異なる情報状態を持つ2つの模擬エージェントを用いて、生成されたメッセージを評価する。
非対称な情報に基づく戦略的コミュニケーションは、現在のシステムにとって難しい能力であることを示す。
- 参考スコア(独自算出の注目度): 5.8120627413404184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in multi-agent settings where communication must balance informativeness and secrecy. In such settings, an agent may need to signal information to collaborators while preventing an adversary from inferring sensitive details. However, existing LLM benchmarks primarily evaluate capabilities such as reasoning, factual knowledge, or instruction following, and do not directly measure strategic communication under asymmetric information. We introduce SNEAK (Secret-aware Natural language Evaluation for Adversarial Knowledge), a benchmark for evaluating selective information sharing in language models. In SNEAK, a model is given a semantic category, a candidate set of words, and a secret word, and must generate a message that indicates knowledge of the secret without revealing it too clearly. We evaluate generated messages using two simulated agents with different information states: an ally, who knows the secret and must identify the intended message, and a chameleon, who does not know the secret and attempts to infer it from the message. This yields two complementary metrics: utility, measuring how well the message communicates to collaborators, and leakage, measuring how much information it reveals to an adversary. Using this framework, we analyze the trade-off between informativeness and secrecy in modern language models and show that strategic communication under asymmetric information remains a challenging capability for current systems. Notably, human participants outperform all evaluated models by a large margin, achieving up to four times higher scores.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コミュニケーションが情報性と機密性のバランスをとる必要があるマルチエージェント環境において、ますます多くデプロイされている。
このような設定では、エージェントは、敵が機密情報を推測するのを防止しながら、協力者に情報を伝達する必要がある。
しかし、既存のLCMベンチマークは、推論、事実知識、命令フォローなどの機能を主に評価し、非対称情報の下での戦略的コミュニケーションを直接計測するものではない。
SNEAK(Secret-aware Natural Language Evaluation for Adversarial Knowledge)は、言語モデルにおける選択的な情報共有を評価するためのベンチマークである。
SNEAKでは、モデルに意味圏、単語の候補セット、秘密語が与えられ、秘密の知識を示すメッセージを生成する必要がある。
我々は、秘密を知り、意図したメッセージを識別しなければならない味方と、その秘密を知らないカメレオンの2つの情報状態を持つ模擬エージェントを用いて、生成されたメッセージを評価した。
ユーティリティ、メッセージがコラボレータといかにうまく通信するかの測定、リーク、相手にどれだけの情報を公開するかを計測する2つの補完的なメトリクスが得られます。
この枠組みを用いて、現代の言語モデルにおける情報性と機密性のトレードオフを分析し、非対称な情報に基づく戦略的コミュニケーションが現在のシステムにとって困難な能力であることを示す。
特に、人間の参加者は評価されたモデル全てを大きなマージンで上回り、最大4倍のスコアを達成します。
関連論文リスト
- MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games [70.37904949359938]
我々は,プライベート情報に関する効果的なコミュニケーションを必要とする協調ゲーム群を用いて,マルチターンインタラクションにおける言語モデルの評価を行った。
言語モデルでは,非対話的なベースラインシナリオを改善するために,対話的なコラボレーションを利用できないことがわかった。
我々は,これらの対話の言語的特徴を分析し,サイコフナンシー,情報密度,談話コヒーレンスの役割を評価する。
論文 参考訳(メタデータ) (2026-02-27T17:13:20Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Towards eliciting latent knowledge from LLMs with mechanistic interpretability [1.3286418032136589]
この研究は、言語モデルから隠れた知識を引き出す現在の技術の可能性を探ることを目的としている。
Tabooモデル(Taboo model)は、特定の秘密語を明示的に記述せずに記述する言語モデルである。
我々は、ロジットレンズやスパースオートエンコーダなど、機械的解釈可能性技術に基づいて、主に自動戦略を開発する。
論文 参考訳(メタデータ) (2025-05-20T13:36:37Z) - Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - KGV: Integrating Large Language Models with Knowledge Graphs for Cyber Threat Intelligence Credibility Assessment [38.312774244521]
サイバー脅威インテリジェンス(サイバー脅威インテリジェンス、CTI)は、高度で組織化され、兵器化されたサイバー攻撃を防ぐ重要なツールである。
本稿では,大規模言語モデル (LLM) と単純な構造化知識グラフ (KG) を統合し,CTIの信頼性自動評価を行う最初のフレームワークである知識グラフベース検証(KGV)を提案する。
実験の結果,我々のKGVはCTI-200データセット上で最先端の事実推論手法より優れており,F1は5.7%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-15T11:32:46Z) - Context-aware Communication for Multi-agent Reinforcement Learning [6.109127175562235]
マルチエージェント強化学習(MARL)のための文脈認識型コミュニケーション手法を開発した。
第1段階では、エージェントは放送方式で粗い表現を交換し、第2段階のコンテキストを提供する。
その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。
CACOMの有効性を評価するため,アクタ批判型と値に基づくMARLアルゴリズムを併用する。
論文 参考訳(メタデータ) (2023-12-25T03:33:08Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。