論文の概要: How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations
- arxiv url: http://arxiv.org/abs/2508.05625v1
- Date: Thu, 07 Aug 2025 17:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.985243
- Title: How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations
- Title(参考訳): LLMはどのように説得されるか? 線形プローブは多段階会話における説得力学を解明できる
- Authors: Brandon Jaipersaud, David Krueger, Ekdeep Singh Lubana,
- Abstract要約: 大規模言語モデル(LLM)は、人間を説得する能力を実証し始めている。
近年の研究では、モデル表現を分析するための軽量なツールである線形プローブを用いて、様々なLLM技術を研究している。
そこで本研究では,自然・マルチターン会話における説得力学の研究にプローブを適用した。
- 参考スコア(独自算出の注目度): 11.221875709359974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have started to demonstrate the ability to persuade humans, yet our understanding of how this dynamic transpires is limited. Recent work has used linear probes, lightweight tools for analyzing model representations, to study various LLM skills such as the ability to model user sentiment and political perspective. Motivated by this, we apply probes to study persuasion dynamics in natural, multi-turn conversations. We leverage insights from cognitive science to train probes on distinct aspects of persuasion: persuasion success, persuadee personality, and persuasion strategy. Despite their simplicity, we show that they capture various aspects of persuasion at both the sample and dataset levels. For instance, probes can identify the point in a conversation where the persuadee was persuaded or where persuasive success generally occurs across the entire dataset. We also show that in addition to being faster than expensive prompting-based approaches, probes can do just as well and even outperform prompting in some settings, such as when uncovering persuasion strategy. This suggests probes as a plausible avenue for studying other complex behaviours such as deception and manipulation, especially in multi-turn settings and large-scale dataset analysis where prompting-based methods would be computationally inefficient.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間を説得する能力の実証を始めていますが、この動的気道の理解は限られています。
最近の研究は、リニアプローブ、モデル表現を分析するための軽量ツールを使用して、ユーザーの感情や政治的視点をモデル化する能力など、様々なLLMスキルを研究している。
そこで本研究では,自然・マルチターン会話における説得力学の研究にプローブを適用した。
我々は認知科学からの洞察を活用して、説得の成功、パーソナリティの説得戦略、そして説得戦略という、説得の異なる側面に関する調査を訓練する。
その単純さにもかかわらず、サンプルレベルとデータセットレベルの両方で様々な説得の側面を捉えていることを示す。
例えば、プローブは、説得が説得された会話のポイントや、説得力のある成功がデータセット全体にわたって一般的に発生するポイントを特定することができる。
また、高コストなプロンプトベースのアプローチよりも高速であることに加えて、プローブは同様に実行でき、また、説得戦略を明らかにする場合など、いくつかの設定でプロンプトよりも優れていることも示しています。
これは、特にマルチターン設定や、プロンプトベースの手法が計算的に非効率であるような大規模データセット分析において、騙しや操作のような他の複雑な振る舞いを研究するための、有効な道としてプローブが提案される。
関連論文リスト
- It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics [5.418014947856176]
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
論文 参考訳(メタデータ) (2025-06-03T13:37:51Z) - Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。
本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2025-05-12T17:26:31Z) - Eliciting Language Model Behaviors with Investigator Agents [93.34072434845162]
言語モデルは、自由形式のテキストで促されるとき、複雑で多様な振る舞いを示す。
本研究の目的は,特定の対象行動を引き起こすプロンプトを探索することである。
我々は調査員モデルを訓練し、ランダムに目的とする振る舞いを、それらを引き出す出力の多様な分布にマッピングする。
論文 参考訳(メタデータ) (2025-02-03T10:52:44Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language [41.052284715017606]
本研究では,Large Language Models (LLM) の説得的テキスト生成能力について検討する。
特定のドメインやタイプの説得に焦点を当てた先行研究とは対照的に、諸藩をまたいだ総合的研究を行う。
我々は、短いテキストのペア対からなる新しいデータセットPersuasive-Pairを構築し、LLMによって書き直され、説得言語を増幅または縮小する。
論文 参考訳(メタデータ) (2024-06-25T17:40:47Z) - How do Large Language Models Navigate Conflicts between Honesty and
Helpfulness? [14.706111954807021]
人間の振る舞いを特徴付けるための心理モデルと実験を用いて、大きな言語モデルを分析する。
人間のフィードバックからの強化学習は、誠実さと有用性の両方を改善している。
GPT-4 Turboは、会話のフレーミングやリスナーの判断コンテキストに対する感度を含む人間的な応答パターンを実証する。
論文 参考訳(メタデータ) (2024-02-11T19:13:26Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion
Behaviors in Social Deduction Games [45.55448048482881]
本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。
データセットには199の対話文とビデオ,26,647の発話レベルアノテーションの説得戦略,ゲームレベルアノテーションの推論ゲーム結果が含まれている。
論文 参考訳(メタデータ) (2022-12-16T04:52:53Z) - What Changed Your Mind: The Roles of Dynamic Topics and Discourse in
Argumentation Process [78.4766663287415]
本稿では,議論の説得力において重要な要因を自動的に分析する研究について述べる。
議論的会話における潜在トピックや談話の変化を追跡できる新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-02-10T04:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。