Fugu-MT 論文翻訳(概要): ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

論文の概要: ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

arxiv url: http://arxiv.org/abs/2510.20270v1
Date: Thu, 23 Oct 2025 06:58:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:17.458535
Title: ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases
Title（参考訳）: ImpossibleBench: LLMsの爆発性テストケースの妥当性の測定
Authors: Ziqian Zhong, Aditi Raghunathan, Nicholas Carlini,
Abstract要約: タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
参考スコア（独自算出の注目度）: 58.411135609139855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The tendency to find and exploit "shortcuts" to complete tasks poses significant risks for reliable assessment and deployment of large language models (LLMs). For example, an LLM agent with access to unit tests may delete failing tests rather than fix the underlying bug. Such behavior undermines both the validity of benchmark results and the reliability of real-world LLM coding assistant deployments. To quantify, study, and mitigate such behavior, we introduce ImpossibleBench, a benchmark framework that systematically measures LLM agents' propensity to exploit test cases. ImpossibleBench creates "impossible" variants of tasks from existing benchmarks like LiveCodeBench and SWE-bench by introducing direct conflicts between the natural-language specification and the unit tests. We measure an agent's "cheating rate" as its pass rate on these impossible tasks, where any pass necessarily implies a specification-violating shortcut. As a practical framework, ImpossibleBench is not just an evaluation but a versatile tool. We demonstrate its utility for: (1) studying model behaviors, revealing more fine-grained details of cheating behaviors from simple test modification to complex operator overloading; (2) context engineering, showing how prompt, test access and feedback loop affect cheating rates; and (3) developing monitoring tools, providing a testbed with verified deceptive solutions. We hope ImpossibleBench serves as a useful framework for building more robust and reliable LLM systems. Our implementation can be found at https://github.com/safety-research/impossiblebench.
Abstract（参考訳）: タスクの完了に「ショートカット」を見つけ、活用する傾向は、大きな言語モデル(LLM)の信頼性の高い評価と展開に重大なリスクをもたらす。例えば、ユニットテストにアクセスできるLLMエージェントは、基礎となるバグを修正するのではなく、フェールテストを削除することができる。このような振る舞いは、ベンチマーク結果の有効性と現実のLLMコーディングアシスタントの信頼性の両方を損なう。このような振る舞いを定量化し、研究し、緩和するために、LLMエージェントの妥当性を系統的に測定し、テストケースを利用するためのベンチマークフレームワークであるImpossibleBenchを導入する。 ImpossibleBenchは、自然言語仕様とユニットテストの直接的な競合を導入することで、LiveCodeBenchやSWE-benchといった既存のベンチマークから"不可能な"タスクのバリエーションを生成する。エージェントの「加熱率」をこれらの不可能なタスクのパスレートとして測定し、パスは必ずしも仕様違反のショートカットを意味する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。本研究では,(1)モデル行動の研究,(2)単純なテスト修正から複雑な演算子のオーバーロードに至るまでの不正行為の詳細な詳細を明らかにすること,(2)テストアクセスとフィードバックループが不正行為率にどのように影響するかを示すコンテキストエンジニアリング,(3)監視ツールの開発,(3)検証された欺く解を用いたテストベッドの提供,などの有用性を実証する。 ImpossibleBenchがより堅牢で信頼性の高いLLMシステムを構築する上で有用なフレームワークになることを願っています。私たちの実装はhttps://github.com/safety-research/impossiblebench.comで確認できます。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-14T00:25:26Z)
OSS-Bench: Benchmark Generator for Coding LLMs [4.393587297483245]
本稿では,実世界のオープンソースソフトウェアから大規模かつ実運用的な評価タスクを構築するベンチマークジェネレータOSS-Benchを紹介する。 OSS-Benchは、関数をLLM生成コードに置き換えて、コンパイル性、機能的正確性、メモリ安全性という3つの自然な指標を使用して評価する。 OSS-BenchはOSSの複雑さの進化を生かして過度な適合を緩和することを示した。
論文参考訳（メタデータ） (2025-05-18T09:53:51Z)
Towards Automated Formal Verification of Backend Systems with LLMs [9.66648456498893]
バックエンドのコードを形式的なリーン表現に変換するために,関数型プログラミングと型システムを活用する新しいフレームワークを提案する。我々のパイプラインは、APIやデータベース操作の意図した振る舞いを規定する定理を自動生成し、LSMベースのプロバーを用いて検証する。本手法を現実的なバックエンドシステム上で評価した結果,テスト要件の50%以上を正式に検証できることがわかった。
論文参考訳（メタデータ） (2025-04-13T16:49:37Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。