論文の概要: Red Teaming Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2512.00412v1
- Date: Sat, 29 Nov 2025 09:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.228385
- Title: Red Teaming Large Reasoning Models
- Title(参考訳): 大規模推論モデルのレッドチーム化
- Authors: Jiawei Chen, Yang Yang, Chao Yu, Yu Tian, Zhi Cao, Linghao Li, Hang Su, Zhaoxia Yin,
- Abstract要約: 大規模推論モデル(LRM)は、多段階推論タスクの強力な進歩として現れている。
LRMは、CoTハイジャックや急激な非効率といった新しい安全性と信頼性のリスクを導入している。
LRMの信頼性を評価するための統一ベンチマークRT-LRMを提案する。
- 参考スコア(独自算出の注目度): 26.720095252284818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have emerged as a powerful advancement in multi-step reasoning tasks, offering enhanced transparency and logical consistency through explicit chains of thought (CoT). However, these models introduce novel safety and reliability risks, such as CoT-hijacking and prompt-induced inefficiencies, which are not fully captured by existing evaluation methods. To address this gap, we propose RT-LRM, a unified benchmark designed to assess the trustworthiness of LRMs. RT-LRM evaluates three core dimensions: truthfulness, safety and efficiency. Beyond metric-based evaluation, we further introduce the training paradigm as a key analytical perspective to investigate the systematic impact of different training strategies on model trustworthiness. We achieve this by designing a curated suite of 30 reasoning tasks from an observational standpoint. We conduct extensive experiments on 26 models and identify several valuable insights into the trustworthiness of LRMs. For example, LRMs generally face trustworthiness challenges and tend to be more fragile than Large Language Models (LLMs) when encountering reasoning-induced risks. These findings uncover previously underexplored vulnerabilities and highlight the need for more targeted evaluations. In addition, we release a scalable toolbox for standardized trustworthiness research to support future advancements in this important field. Our code and datasets will be open-sourced.
- Abstract(参考訳): 大規模推論モデル(LRM)は、多段階推論タスクの強力な進歩として現れ、明示的な思考の連鎖(CoT)を通じて透明性と論理的一貫性を向上した。
しかし,これらのモデルには,既存の評価手法では十分に捉えられていないCoTハイジャックや急激な非効率といった,新たな安全性と信頼性のリスクが導入されている。
このギャップに対処するために,LRMの信頼性を評価するための統一ベンチマークRT-LRMを提案する。
RT-LRMは、真理性、安全性、効率性の3つの中核次元を評価する。
距離に基づく評価以外にも、モデルの信頼性に対する異なるトレーニング戦略の体系的影響を調べるために、トレーニングパラダイムを重要な分析的視点として紹介する。
我々は、観察の観点から30の推論タスクのキュレートされたスイートを設計することで、これを実現する。
我々は26のモデルで広範囲に実験を行い、LRMの信頼性に関するいくつかの貴重な知見を明らかにした。
例えば、LEMは一般的に信頼性上の課題に直面しており、推論によるリスクに直面すると、LLM(Large Language Models)よりも脆弱になる傾向があります。
これらの発見は、未発見の脆弱性を明らかにし、よりターゲットを絞った評価の必要性を強調している。
さらに、我々は、この重要な分野における将来の進歩をサポートするために、標準化された信頼性研究のためのスケーラブルなツールボックスをリリースする。
コードとデータセットはオープンソースになります。
関連論文リスト
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense [16.519353449118814]
我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-17T23:16:34Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation [51.19622266249408]
MultiTrust-XはMLLMの信頼性問題を評価、分析、緩和するためのベンチマークである。
分類に基づいて、MultiTrust-Xには32のタスクと28のキュレートデータセットが含まれている。
私たちの実験は、現在のモデルに重大な脆弱性を明らかにします。
論文 参考訳(メタデータ) (2025-08-21T09:00:01Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - A Survey on Uncertainty Toolkits for Deep Learning [3.113304966059062]
ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。
モデリングおよび評価能力に関する11のツールキットについて検討する。
最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
論文 参考訳(メタデータ) (2022-05-02T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。