論文の概要: Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.21262v1
- Date: Tue, 24 Feb 2026 04:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.560117
- Title: Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models
- Title(参考訳): 大規模言語モデルにおける説得力と警戒力の定量化
- Authors: Sasha Robinson, Kerem Oktar, Katherine M. Collins, Ilia Sucholutsky, Kelsey R. Allen,
- Abstract要約: 我々は,LLMエージェントを説得し,合理的に警戒する大規模言語モデルの能力について検討する。
LLMでは,パズル解決性能,説得能力,警戒能力が解離能力であることがわかった。
- 参考スコア(独自算出の注目度): 13.754658024896612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With increasing integration of Large Language Models (LLMs) into areas of high-stakes human decision-making, it is important to understand the risks they introduce as advisors. To be useful advisors, LLMs must sift through large amounts of content, written with both benevolent and malicious intent, and then use this information to convince a user to take a specific action. This involves two social capacities: vigilance (the ability to determine which information to use, and which to discard) and persuasion (synthesizing the available evidence to make a convincing argument). While existing work has investigated these capacities in isolation, there has been little prior investigation of how these capacities may be linked. Here, we use a simple multi-turn puzzle-solving game, Sokoban, to study LLMs' abilities to persuade and be rationally vigilant towards other LLM agents. We find that puzzle-solving performance, persuasive capability, and vigilance are dissociable capacities in LLMs. Performing well on the game does not automatically mean a model can detect when it is being misled, even if the possibility of deception is explicitly mentioned. % as part of the prompt. However, LLMs do consistently modulate their token use, using fewer tokens to reason when advice is benevolent and more when it is malicious, even if they are still persuaded to take actions leading them to failure. To our knowledge, our work presents the first investigation of the relationship between persuasion, vigilance, and task performance in LLMs, and suggests that monitoring all three independently will be critical for future work in AI safety.
- Abstract(参考訳): 大規模言語モデル(LLM)の人間の意思決定分野への統合が進む中、アドバイザとして導入されるリスクを理解することが重要である。
有用なアドバイザであるためには、LLMは、悪意のある意図と悪意のある意図の両方で書かれた大量のコンテンツを盗み取り、この情報を使ってユーザに特定のアクションを取るように説得する必要がある。
これには、警戒(どの情報を使うか、どの情報を捨てるかを決定する能力)と説得(利用可能な証拠を合成して説得力のある議論を行う能力)という2つの社会的能力が含まれる。
既存の研究は、これらの容量を単独で調査しているが、これらの容量がどのようにリンクされているかについては、以前の研究はほとんど行われていない。
ここでは、簡単なマルチターンパズル解法ゲームであるソコバンを用いて、他のLSMエージェントに対して合理的に警戒するLSMの能力を研究する。
LLMでは,パズル解決性能,説得能力,警戒能力が解離能力であることがわかった。
ゲームでうまく実行するということは、たとえ詐欺の可能性が明記されているとしても、モデルが誤認されていることを自動で検出できるという意味ではない。
%であった。
しかし、LSMはトークンの使用を一貫して調整し、アドバイスが好ましくないと判断するトークンが少なくなる。
我々の知る限り、我々の研究はLLMにおける説得力、警戒力、タスクパフォーマンスの関係を初めて調査し、3つ全てを独立して監視することは、AIの安全性における将来の作業にとって重要であることを示唆している。
関連論文リスト
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。