論文の概要: ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
- arxiv url: http://arxiv.org/abs/2508.16889v2
- Date: Sat, 30 Aug 2025 23:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.677795
- Title: ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks
- Title(参考訳): ObjexMT:マルチターンジェイルブレイクによるLCM-as-a-Judgeの客観的抽出とメタ認知校正
- Authors: Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Haon Park,
- Abstract要約: クロードソネット4は、最高の客観的抽出精度(0.515)とキャリブレーション(ECE 0.296; Brier 0.324)を得る
実行可能であれば目標を公開し、それ以外は信頼による決定を下すことを推奨します。
- 参考スコア(独自算出の注目度): 12.396822247035578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge (LLMaaJ) now underpins scalable evaluation, yet we lack a decisive test of a judge's qualification: can it recover a conversation's latent objective and know when that inference is trustworthy? LLMs degrade under irrelevant or long context; multi-turn jailbreaks further hide goals across turns. We introduce ObjexMT, a benchmark for objective extraction and metacognition. Given a multi-turn transcript, a model must return a one-sentence base objective and a self-reported confidence. Accuracy is computed via LLM-judge semantic similarity to gold objectives, converted to binary correctness by a single human-aligned threshold calibrated once on N = 100 items ($\tau^*=0.61$). Metacognition is evaluated with ECE, Brier, Wrong-at-High-Conf, and risk-coverage. Across gpt-4.1, claude-sonnet-4, and Qwen3-235B-A22B-FP8 on SafeMTData_Attack600, SafeMTData_1K, MHJ, and CoSafe, claude-sonnet-4 attains the best objective-extraction accuracy (0.515) and calibration (ECE 0.296; Brier 0.324); gpt-4.1 and Qwen3-235B-A22B-FP8 tie at 0.441 but are overconfident (mean confidence $\approx$0.88 vs. accuracy $\approx$0.44; Wrong-at-0.90 $\approx$48-52%). Performance varies by dataset ($\approx$0.167-0.865). ObjexMT thus supplies an actionable test for LLM judges: when objectives are not explicit, judges often misinfer them with high confidence. We recommend exposing objectives when feasible and gating decisions by confidence otherwise. Code and data at https://github.com/hyunjun1121/ObjexMT_dataset.
- Abstract(参考訳): LLM-as-a-Judge(LLMaaJ)は現在、スケーラブルな評価の基盤となっているが、審査員の資格に関する決定的なテストが欠如している。
LLMは無関係または長いコンテキストで分解され、マルチターンジェイルブレイクはさらにターン間の目標を隠蔽する。
客観的な抽出とメタ認知のためのベンチマークであるObjexMTを紹介する。
マルチターンの書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された信頼を返さなければならない。
正確性は、金の目的とLLM-judgeセマンティックな類似性によって計算され、N = 100アイテム(\tau^*=0.61$)で1度校正された1つの人列しきい値によって二項正当性に変換される。
メタ認知は、ECE、Brier、Wrong-at-High-Conf、リスクカバレッジで評価される。
gpt-4.1, claude-sonnet-4, and Qwen3-235B-A22B-FP8 on SafeMTData_Attack600, SafeMTData_1K, MHJ, and CoSafe, claude-sonnet-4 a across gpt-4.1 and Qwen3-235B-A22B-FP8 tie at 0.441 but are overconfident (mean confidence $\approx$0.88 vs. accuracy $\approx$0.44; Wrong-at-0.9 $\approx$482%)。
パフォーマンスはデータセットによって異なる(\approx$0.167-0.865)。
したがって、ObjexMT は LLM の審査員に対して実行可能なテストを提供する。
実行可能であれば目標を公開し、それ以外は信頼による決定を下すことを推奨します。
https://github.com/hyunjun1121/ObjexMT_datasetのコードとデータ。
関連論文リスト
- Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making [38.75183725659772]
大規模言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使われている。
モデル動作の理解と信頼性向上には,内部プロセスの測定が不可欠である,と我々は主張する。
計画,修正,資源制約のある意思決定という3つの中核的な側面に沿ってLCMを評価する枠組みを導入する。
論文 参考訳(メタデータ) (2025-06-13T17:59:10Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [4.492376241514766]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
LLMアライメントのロバスト性を評価する手法を提案し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits [31.98028879922584]
SummExecEditという新しいパイプラインとベンチマークを導入し、実際のエラーを検知し、正確な説明を提供する能力についてモデルを評価する。
トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークでわずか0.49のジョイント検出と説明スコアを達成している。
説明ミスの4つの主要なタイプを特定し、その45.4%は、要約の完全に無関係な部分に焦点を当てている。
論文 参考訳(メタデータ) (2024-12-17T23:26:44Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。