論文の概要: ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
- arxiv url: http://arxiv.org/abs/2508.16889v1
- Date: Sat, 23 Aug 2025 03:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.238666
- Title: ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
- Title(参考訳): ObjexMT:マルチターンジェイルブレイクによるLCM-as-a-Judgeの客観的抽出とメタ認知校正
- Authors: Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Haon Park,
- Abstract要約: OBJEX(MT)は,テキストを単一文ベースに抽出するモデルを必要とするベンチマークである。
抽出された金の目的との意味的類似性を用いて、LLM判定器によって精度が評価される。
クロードソネット4は,最大目標抽出精度(0.515)と最適キャリブレーションを実現する。
- 参考スコア(独自算出の注目度): 12.396822247035578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as judges of other models, yet it is unclear whether a judge can reliably infer the latent objective of the conversation it evaluates, especially when the goal is distributed across noisy, adversarial, multi-turn jailbreaks. We introduce OBJEX(MT), a benchmark that requires a model to (i) distill a transcript into a single-sentence base objective and (ii) report its own confidence. Accuracy is scored by an LLM judge using semantic similarity between extracted and gold objectives; correctness uses a single human-aligned threshold calibrated once on N=100 items (tau* = 0.61); and metacognition is evaluated with ECE, Brier score, Wrong@High-Conf, and risk-coverage curves. We evaluate gpt-4.1, claude-sonnet-4, and Qwen3-235B-A22B-FP8 on SafeMT Attack_600, SafeMTData_1K, MHJ, and CoSafe. claude-sonnet-4 attains the highest objective-extraction accuracy (0.515) and the best calibration (ECE 0.296; Brier 0.324), while gpt-4.1 and Qwen3 tie at 0.441 accuracy yet show marked overconfidence (mean confidence approx. 0.88 vs. accuracy approx. 0.44; Wrong@0.90 approx. 48-52%). Performance varies sharply across datasets (approx. 0.167-0.865), with MHJ comparatively easy and Attack_600/CoSafe harder. These results indicate that LLM judges often misinfer objectives with high confidence in multi-turn jailbreaks and suggest operational guidance: provide judges with explicit objectives when possible and use selective prediction or abstention to manage risk. We release prompts, scoring templates, and complete logs to facilitate replication and analysis.
- Abstract(参考訳): 大規模言語モデル (LLM) は、他のモデルの審査員としてますます使われているが、裁判官が評価する会話の潜在目的を確実に推測できるかどうかは不明である。
モデルを必要とするベンチマークであるOBJEX(MT)を導入する。
一 書写を単文基本目的物に蒸留し、
二 自己の信任を申告すること。
抽出された目的と金の目的のセマンティックな類似性を用いて、LCM判定器が精度を評価し、N=100項目に1度調整された1つのヒトアラインしきい値(tau* = 0.61)を用い、ECE、Brierスコア、Wrong@High-Conf、リスクカバレッジ曲線を用いてメタ認知を評価する。
SafeMT Attack_600, SafeMTData_1K, MHJ, CoSafeにおけるgpt-4.1, claude-sonnet-4, Qwen3-235B-A22B-FP8の評価を行った。
クロードソネット4は最大目標抽出精度 (0.515) と最高校正精度 (ECE 0.296; Brier 0.324) を達成し、gpt-4.1とQwen3は0.441の精度で一致したが、信頼性は0.88と0.44の精度 (Wrong@0.90は48-52%) であった。
MHJは比較的簡単で、Attack_600/CoSafeはより難しい。
これらの結果から, LLM判事は多ターンジェイルブレイクに対する高い信頼度で目標を誤認し, 可能な限り明確な目標を裁判官に提供するとともに, リスク管理に選択的予測や棄権を用いることが示唆された。
レプリケーションと分析を容易にするために、プロンプト、評価テンプレート、完全なログをリリースしています。
関連論文リスト
- Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making [38.75183725659772]
大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
モデル動作の理解と信頼性向上には,内部プロセスの測定が不可欠である,と我々は主張する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
論文 参考訳(メタデータ) (2025-06-13T17:59:10Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits [31.98028879922584]
SummExecEditという新しいパイプラインとベンチマークを導入し、実際のエラーを検知し、正確な説明を提供する能力についてモデルを評価する。
トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークでわずか0.49のジョイント検出と説明スコアを達成している。
説明ミスの4つの主要なタイプを特定し、その45.4%は、要約の完全に無関係な部分に焦点を当てている。
論文 参考訳(メタデータ) (2024-12-17T23:26:44Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。