論文の概要: AREG: Adversarial Resource Extraction Game for Evaluating Persuasion and Resistance in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.16639v1
- Date: Wed, 18 Feb 2026 17:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.667045
- Title: AREG: Adversarial Resource Extraction Game for Evaluating Persuasion and Resistance in Large Language Models
- Title(参考訳): AREG:大規模言語モデルにおける説得性と抵抗性評価のための逆資源抽出ゲーム
- Authors: Adib Sakhawat, Fardeen Sadab,
- Abstract要約: 本稿では,金融資源に対する多ターンゼロサム交渉として説得と抵抗を運用するベンチマークであるAdversarial Resource extract Game (AREG)を紹介する。
ラウンドロビントーナメントをフロンティアモデル全体で使用することで、AREGは攻撃的(説得)と防御的(抵抗)の能力を共同で評価することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating the social intelligence of Large Language Models (LLMs) increasingly requires moving beyond static text generation toward dynamic, adversarial interaction. We introduce the Adversarial Resource Extraction Game (AREG), a benchmark that operationalizes persuasion and resistance as a multi-turn, zero-sum negotiation over financial resources. Using a round-robin tournament across frontier models, AREG enables joint evaluation of offensive (persuasion) and defensive (resistance) capabilities within a single interactional framework. Our analysis provides evidence that these capabilities are weakly correlated ($ρ= 0.33$) and empirically dissociated: strong persuasive performance does not reliably predict strong resistance, and vice versa. Across all evaluated models, resistance scores exceed persuasion scores, indicating a systematic defensive advantage in adversarial dialogue settings. Further linguistic analysis suggests that interaction structure plays a central role in these outcomes. Incremental commitment-seeking strategies are associated with higher extraction success, while verification-seeking responses are more prevalent in successful defenses than explicit refusal. Together, these findings indicate that social influence in LLMs is not a monolithic capability and that evaluation frameworks focusing on persuasion alone may overlook asymmetric behavioral vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の社会的インテリジェンスを評価するには、静的テキスト生成を超えて、動的で敵対的な相互作用に移行する必要がある。
本稿では,金融資源に対する多ターンゼロサム交渉として説得と抵抗を運用するベンチマークであるAdversarial Resource extract Game (AREG)を紹介する。
ラウンドロビントーナメントをフロンティアモデル全体で使用することにより、AREGは単一の相互作用フレームワーク内で攻撃的(パーポージョン)と防御的(抵抗)の能力を共同で評価することができる。
我々の分析は、これらの能力が弱い相関(ρ= 0.33$)と経験的二分性(英語版)であることを示す:強い説得性能は強い抵抗を確実に予測しない。
評価された全てのモデルにおいて、抵抗スコアは説得スコアを超え、対人対話設定において体系的な防御的優位性を示す。
さらなる言語学的分析は、相互作用構造がこれらの結果に中心的な役割を果たすことを示唆している。
増分コミットメント探索戦略は高い抽出成功と結びついており、検証探索応答は明示的な拒絶よりも成功防衛においてより多い。
これらの結果から, LLMの社会的影響はモノリシックな機能ではなく, 説得のみに焦点を絞った評価フレームワークが非対称な行動脆弱性を見落としている可能性が示唆された。
関連論文リスト
- Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions [8.026492468995187]
小さなモデルは極端なコンプライアンスを示し、最初の説得的なターンで80%以上の信念の変化が生じる。
メタ認知は、堅牢性を高めるのではなく、信念の侵食を加速することで脆弱性を増大させる。
これらの知見は、現在のロバストネス介入のモデル依存性のかなりの限界を浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-20T04:43:55Z) - MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks [8.86745721473138]
対話型AIの強靭性に関する総合的サバイバル分析を行い,9つの最先端LCMの会話を36,951回解析した。
突発的,即発的(prompt-to-prompt)なセマンティックドリフトは破滅的であり,会話障害の危険性を劇的に高める。
相互作用を持つAFTモデルは優れた性能を示し、優れた識別と例外的な校正を実現している。
論文 参考訳(メタデータ) (2025-10-03T04:26:10Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Adversarial Attacks and Defense for Conversation Entailment Task [0.49157446832511503]
大規模言語モデルは、低コストの敵攻撃に対して脆弱である。
我々は、仮説の真偽を正確に識別するために、変圧器モデルを微調整する。
モデルのロバスト性を高めるために,埋め込み摂動損失法を導入する。
論文 参考訳(メタデータ) (2024-05-01T02:49:18Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。