論文の概要: Among Them: A game-based framework for assessing persuasion capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2502.20426v1
- Date: Thu, 27 Feb 2025 12:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:31.789002
- Title: Among Them: A game-based framework for assessing persuasion capabilities of LLMs
- Title(参考訳): テーマ:LLMの説得能力を評価するゲームベースフレームワーク
- Authors: Mateusz Idziejczak, Vasyl Korzavatykh, Mateusz Stawicki, Andrii Chmutov, Marcin Korcz, Iwo Błądek, Dariusz Brzezinski,
- Abstract要約: 大規模言語モデル(LLM)と自律AIエージェントは、自動的な説得と社会的影響の可能性を懸念している。
制御環境におけるLLM偽装スキルを評価するためのUs-inspiredゲームフレームワークについて述べる。
- 参考スコア(独自算出の注目度): 0.8763629723457529
- License:
- Abstract: The proliferation of large language models (LLMs) and autonomous AI agents has raised concerns about their potential for automated persuasion and social influence. While existing research has explored isolated instances of LLM-based manipulation, systematic evaluations of persuasion capabilities across different models remain limited. In this paper, we present an Among Us-inspired game framework for assessing LLM deception skills in a controlled environment. The proposed framework makes it possible to compare LLM models by game statistics, as well as quantify in-game manipulation according to 25 persuasion strategies from social psychology and rhetoric. Experiments between 8 popular language models of different types and sizes demonstrate that all tested models exhibit persuasive capabilities, successfully employing 22 of the 25 anticipated techniques. We also find that larger models do not provide any persuasion advantage over smaller models and that longer model outputs are negatively correlated with the number of games won. Our study provides insights into the deception capabilities of LLMs, as well as tools and data for fostering future research on the topic.
- Abstract(参考訳): 大規模言語モデル(LLM)と自律型AIエージェントの拡散は、自動説得と社会的影響の可能性を懸念している。
既存の研究は、LLMベースの操作の独立したインスタンスを探索してきたが、異なるモデル間での説得能力の体系的評価は限定的のままである。
本稿では,制御環境下でのLLM偽装スキルを評価するためのゲームフレームワークについて述べる。
提案フレームワークは,ゲーム統計によるLLMモデルの比較と,社会心理学や修辞学からの25の説得戦略に基づくゲーム内操作の定量化を可能にする。
異なるタイプとサイズの8つの人気のある言語モデルによる実験では、テスト対象のモデルすべてが説得力を示し、予想される25のテクニックのうち22がうまく採用された。
また, より大きなモデルでは, より小さなモデルに対する説得力は得られず, より長いモデル出力は勝利したゲーム数と負の相関があることがわかった。
本研究は,LLMの偽装能力に関する知見と今後の研究を促進するためのツールとデータを提供する。
関連論文リスト
- Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。
14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis [34.639887462203]
我々は、オープンでスケーラブルでリアルタイムに更新されたプラットフォームを導入し、ゲームに基づいてLLMベースのMASにアクセスし分析する(WiS)。
本プラットフォームには,(1)H Face上で利用可能なモデルをサポートする統一型モデル評価インタフェース,(2)モデル評価のためのリアルタイム更新型リーダーボード,(3)ゲーム勝利率,攻撃,防衛戦略,LLMの推論に関する総合的評価の3つが特徴である。
論文 参考訳(メタデータ) (2024-12-04T14:45:09Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。
我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-03T16:36:35Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。