論文の概要: Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10691v1
- Date: Wed, 12 Nov 2025 06:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.271984
- Title: Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models
- Title(参考訳): 良性から動的逆性への評価--大規模言語モデルのためのイカゲーム
- Authors: Zijian Chen, Wenjun Zhang, Guangtao Zhai,
- Abstract要約: 資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
- 参考スコア(独自算出の注目度): 57.33350664910483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary benchmarks are struggling to keep pace with the development of large language models (LLMs). Although they are indispensable to evaluate model performance on various tasks, it is uncertain whether the models trained on Internet data have genuinely learned how to solve problems or merely seen the questions before. This potential data contamination issue presents a fundamental challenge to establishing trustworthy evaluation frameworks. Meanwhile, existing benchmarks predominantly assume benign, resource-rich settings, leaving the behavior of LLMs under pressure unexplored. In this paper, we introduce Squid Game, a dynamic and adversarial evaluation environment with resource-constrained and asymmetric information settings elaborated to evaluate LLMs through interactive gameplay against other LLM opponents. Notably, Squid Game consists of six elimination-style levels, focusing on multi-faceted abilities, such as instruction-following, code, reasoning, planning, and safety alignment. We evaluate over 50 LLMs on Squid Game, presenting the largest behavioral evaluation study of general LLMs on dynamic adversarial scenarios. We observe a clear generational phase transition on performance in the same model lineage and find evidence that some models resort to speculative shortcuts to win the game, indicating the possibility of higher-level evaluation paradigm contamination in static benchmarks. Furthermore, we compare prominent LLM benchmarks and Squid Game with correlation analyses, highlighting that dynamic evaluation can serve as a complementary part for static evaluations. The code and data will be released in the future.
- Abstract(参考訳): 現代のベンチマークは、大きな言語モデル(LLM)の開発に追随するのに苦労している。
様々なタスクにおけるモデル性能を評価することは不可欠であるが、インターネットデータで訓練されたモデルが真に問題の解決方法を学んだのか、あるいは単に質問を見ただけなのかは定かではない。
この潜在的なデータ汚染問題は、信頼できる評価フレームワークを確立するための根本的な課題である。
一方、既存のベンチマークでは、良質でリソースに富んだ設定を前提としており、LLMの振る舞いは未探索のままである。
本稿では,資源制約と非対称な情報設定を具体化した動的・対角的評価環境であるSquid Gameを紹介する。
特に、Squid Gameは6つの排除スタイルのレベルで構成されており、命令追従、コード、推論、計画、安全アライメントといった多面的な能力に焦点を当てている。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
我々は,同じモデル系統における性能の明確な世代間遷移を観察し,いくつかのモデルが投機的ショートカットに頼ってゲームに勝つことの証拠を見つけ,静的ベンチマークにおける高レベルの評価パラダイム汚染の可能性を示している。
さらに,LLMベンチマークとSquid Gameを相関解析と比較し,動的評価が静的評価の相補的な役割を果たすことを示した。
コードとデータは将来的にリリースされる予定だ。
関連論文リスト
- What-If Analysis of Large Language Models: Explore the Game World Using Proactive Thinking [50.72154186522052]
大規模言語モデル(LLM)は情報処理をリアクティブに行う能力に優れるが、仮説的未来を体系的に探索する能力に欠ける。
提案するWiA-LLMは,LLMにプロアクティブな思考能力を持たせる新しいパラダイムである。
複雑なマルチプレイヤーゲーム環境であるHonor of KingsにおけるWiA-LLMを検証する。
論文 参考訳(メタデータ) (2025-09-05T04:05:27Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing [39.6507632134755]
本稿では,測定理論における適応試験法に基づく新しい生成的進化試験手法であるGAAを提案する。
GETAはモデル能力に適したテスト項目を動的に生成することで、LLMの根底にある道徳的境界を探索する。
GETAは、アイテムの難易度とモデル値の整合性の連成分布を学習することでLLMと共進化する。
論文 参考訳(メタデータ) (2024-06-20T11:51:00Z) - ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in
Video-Language Models [28.305932427801682]
ViLMA(ビデオ言語モデルアセスメント)は,VidLMのきめ細かい機能を評価するタスク非依存のベンチマークである。
ViLMAは、コントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにしている。
静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
論文 参考訳(メタデータ) (2023-11-13T02:13:13Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。