論文の概要: ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
- arxiv url: http://arxiv.org/abs/2508.16889v4
- Date: Wed, 08 Oct 2025 21:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.50276
- Title: ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
- Title(参考訳): ObjexMT:マルチターンジェイルブレイクによるLCM-as-a-Judgeの客観的抽出とメタ認知校正
- Authors: Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Haon Park,
- Abstract要約: 目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
- 参考スコア(独自算出の注目度): 12.396822247035578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge (LLMaaJ) enables scalable evaluation, yet we lack a decisive test of a judge's qualification: can it recover the hidden objective of a conversation and know when that inference is reliable? Large language models degrade with irrelevant or lengthy context, and multi-turn jailbreaks can scatter goals across turns. We present ObjexMT, a benchmark for objective extraction and metacognition. Given a multi-turn transcript, a model must output a one-sentence base objective and a self-reported confidence. Accuracy is scored by semantic similarity to gold objectives, then thresholded once on 300 calibration items ($\tau^\star = 0.66$; $F_1@\tau^\star = 0.891$). Metacognition is assessed with expected calibration error, Brier score, Wrong@High-Confidence (0.80 / 0.90 / 0.95), and risk--coverage curves. Across six models (gpt-4.1, claude-sonnet-4, Qwen3-235B-A22B-FP8, kimi-k2, deepseek-v3.1, gemini-2.5-flash) evaluated on SafeMTData\_Attack600, SafeMTData\_1K, and MHJ, kimi-k2 achieves the highest objective-extraction accuracy (0.612; 95\% CI [0.594, 0.630]), while claude-sonnet-4 (0.603) and deepseek-v3.1 (0.599) are statistically tied. claude-sonnet-4 offers the best selective risk and calibration (AURC 0.242; ECE 0.206; Brier 0.254). Performance varies sharply across datasets (16--82\% accuracy), showing that automated obfuscation imposes challenges beyond model choice. High-confidence errors remain: Wrong@0.90 ranges from 14.9\% (claude-sonnet-4) to 47.7\% (Qwen3-235B-A22B-FP8). ObjexMT therefore supplies an actionable test for LLM judges: when objectives are implicit, judges often misinfer them; exposing objectives or gating decisions by confidence is advisable. All experimental data are in the Supplementary Material and at https://github.com/hyunjun1121/ObjexMT_dataset.
- Abstract(参考訳): LLM-as-a-Judge(LLMaaJ)はスケーラブルな評価を可能にするが、審査員の資格に関する決定的なテストが欠如している。
大規模な言語モデルは、無関係または長いコンテキストで劣化し、マルチターンのジェイルブレイクはターン毎に目標を散らかすことができる。
目的抽出とメタ認知のためのベンチマークであるObjexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
精度は金の目的とセマンティックに類似し、300のキャリブレーションアイテム(\tau^\star = 0.66$; $F_1@\tau^\star = 0.891$)で1度閾値付けされる。
メタ認知は、キャリブレーション誤差、ブライアスコア、Wrong@High-Confidence (0.80 / 0.90 / 0.95)、リスク被覆曲線で評価される。
6つのモデル(gpt-4.1, claude-sonnet-4, Qwen3-235B-A22B-FP8, kimi-k2, deepseek-v3.1, gemini-2.5-flash)がSafeMTData\_Attack600, SafeMTData\_1K, MHJで評価され、Kimi-k2は最も客観的な抽出精度(0.612; 95\% CI [0.594, 0.630])を達成する一方、claude-sonnet-4(0.603)とdeepseek-v3.1(0.599)は統計的に結びついている。
クロードソネット4は最良の選択リスクとキャリブレーションを提供する(AURC 0.242; ECE 0.206; Brier 0.254)。
パフォーマンスはデータセットによって大きく異なり(16~82倍の精度)、自動難読化がモデル選択以上の課題を課していることを示している。
Wrong@0.90 は 14.9 % (claude-sonnet-4) から 47.7 % (Qwen3-235B-A22B-FP8) まで変化している。
したがって、ObjexMT は LLM の審査員に対して行動可能なテストを提供する: 目的が暗黙的である場合、裁判官はしばしばそれらを誤認する。
すべての実験データはSupplementary Materialとhttps://github.com/hyunjun1121/ObjexMT_datasetにある。
関連論文リスト
- Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making [38.75183725659772]
大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
モデル動作の理解と信頼性向上には,内部プロセスの測定が不可欠である,と我々は主張する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
論文 参考訳(メタデータ) (2025-06-13T17:59:10Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits [31.98028879922584]
SummExecEditという新しいパイプラインとベンチマークを導入し、実際のエラーを検知し、正確な説明を提供する能力についてモデルを評価する。
トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークでわずか0.49のジョイント検出と説明スコアを達成している。
説明ミスの4つの主要なタイプを特定し、その45.4%は、要約の完全に無関係な部分に焦点を当てている。
論文 参考訳(メタデータ) (2024-12-17T23:26:44Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。