Fugu-MT 論文翻訳(概要): Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

論文の概要: Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

arxiv url: http://arxiv.org/abs/2602.21262v1
Date: Tue, 24 Feb 2026 04:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.560117
Title: Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models
Title（参考訳）: 大規模言語モデルにおける説得力と警戒力の定量化
Authors: Sasha Robinson, Kerem Oktar, Katherine M. Collins, Ilia Sucholutsky, Kelsey R. Allen,
Abstract要約: 我々は,LLMエージェントを説得し,合理的に警戒する大規模言語モデルの能力について検討する。 LLMでは,パズル解決性能,説得能力,警戒能力が解離能力であることがわかった。
参考スコア（独自算出の注目度）: 13.754658024896612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With increasing integration of Large Language Models (LLMs) into areas of high-stakes human decision-making, it is important to understand the risks they introduce as advisors. To be useful advisors, LLMs must sift through large amounts of content, written with both benevolent and malicious intent, and then use this information to convince a user to take a specific action. This involves two social capacities: vigilance (the ability to determine which information to use, and which to discard) and persuasion (synthesizing the available evidence to make a convincing argument). While existing work has investigated these capacities in isolation, there has been little prior investigation of how these capacities may be linked. Here, we use a simple multi-turn puzzle-solving game, Sokoban, to study LLMs' abilities to persuade and be rationally vigilant towards other LLM agents. We find that puzzle-solving performance, persuasive capability, and vigilance are dissociable capacities in LLMs. Performing well on the game does not automatically mean a model can detect when it is being misled, even if the possibility of deception is explicitly mentioned. % as part of the prompt. However, LLMs do consistently modulate their token use, using fewer tokens to reason when advice is benevolent and more when it is malicious, even if they are still persuaded to take actions leading them to failure. To our knowledge, our work presents the first investigation of the relationship between persuasion, vigilance, and task performance in LLMs, and suggests that monitoring all three independently will be critical for future work in AI safety.
Abstract（参考訳）: 大規模言語モデル(LLM)の人間の意思決定分野への統合が進む中、アドバイザとして導入されるリスクを理解することが重要である。有用なアドバイザであるためには、LLMは、悪意のある意図と悪意のある意図の両方で書かれた大量のコンテンツを盗み取り、この情報を使ってユーザに特定のアクションを取るように説得する必要がある。これには、警戒(どの情報を使うか、どの情報を捨てるかを決定する能力)と説得(利用可能な証拠を合成して説得力のある議論を行う能力)という2つの社会的能力が含まれる。既存の研究は、これらの容量を単独で調査しているが、これらの容量がどのようにリンクされているかについては、以前の研究はほとんど行われていない。ここでは、簡単なマルチターンパズル解法ゲームであるソコバンを用いて、他のLSMエージェントに対して合理的に警戒するLSMの能力を研究する。 LLMでは,パズル解決性能,説得能力,警戒能力が解離能力であることがわかった。ゲームでうまく実行するということは、たとえ詐欺の可能性が明記されているとしても、モデルが誤認されていることを自動で検出できるという意味ではない。 %であった。しかし、LSMはトークンの使用を一貫して調整し、アドバイスが好ましくないと判断するトークンが少なくなる。我々の知る限り、我々の研究はLLMにおける説得力、警戒力、タスクパフォーマンスの関係を初めて調査し、3つ全てを独立して監視することは、AIの安全性における将来の作業にとって重要であることを示唆している。

関連論文リスト

Are Large Language Models Sensitive to the Motives Behind Communication? [9.246336669308665]
大規模言語モデル(LLM)とAIエージェントは、人間の意図とインセンティブによって本質的にフレーム化された情報を処理する。 LLMが現実世界で有効であるためには、ソースのモチベーションを要因としてコンテンツの評価を批判的に行う必要がある。我々は認知科学から制御された実験を用いて、LCMの行動が動機付けられた証言からの学習の合理的モデルと一致していることを検証する。 LLMの推論は、合理的なモデルをほとんど正確に追跡していないことが分かっています -- 一部には、警戒と関連する考慮を妨げている追加情報があるからです。
論文参考訳（メタデータ） (2025-10-22T15:35:00Z)
Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文参考訳（メタデータ） (2025-08-08T14:46:35Z)
Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文参考訳（メタデータ） (2025-06-29T15:02:47Z)
Should You Use Your Large Language Model to Explore or Exploit? [57.98066234509361]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文参考訳（メタデータ） (2024-10-20T07:22:23Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-02T16:55:37Z)
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文参考訳（メタデータ） (2023-10-02T16:27:36Z)
Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文参考訳（メタデータ） (2023-07-31T09:27:01Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。