論文の概要: A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03871v1
- Date: Thu, 04 Sep 2025 04:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.045176
- Title: A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた推論における信頼性に関する総合的調査
- Authors: Yanbo Wang, Yongcan Yu, Jian Liang, Ran He,
- Abstract要約: Long-CoT推論は、言語理解、複雑な問題解決、コード生成など、さまざまなタスクに進歩している。
信頼に値する推論の5つの中核的な側面 – 真理性、安全性、堅牢性、公正性、プライバシ – に重点を置いています。
全体として、推論技術は、幻覚の緩和、有害なコンテンツ検出、堅牢性の改善を通じてモデルの信頼性を高めることを約束する一方で、最先端の推論モデルは、安全性、堅牢性、プライバシにおける同等またはそれ以上の脆弱性に悩まされることが多い。
- 参考スコア(独自算出の注目度): 35.46537241991566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Long-CoT reasoning has advanced LLM performance across various tasks, including language understanding, complex problem solving, and code generation. This paradigm enables models to generate intermediate reasoning steps, thereby improving both accuracy and interpretability. However, despite these advancements, a comprehensive understanding of how CoT-based reasoning affects the trustworthiness of language models remains underdeveloped. In this paper, we survey recent work on reasoning models and CoT techniques, focusing on five core dimensions of trustworthy reasoning: truthfulness, safety, robustness, fairness, and privacy. For each aspect, we provide a clear and structured overview of recent studies in chronological order, along with detailed analyses of their methodologies, findings, and limitations. Future research directions are also appended at the end for reference and discussion. Overall, while reasoning techniques hold promise for enhancing model trustworthiness through hallucination mitigation, harmful content detection, and robustness improvement, cutting-edge reasoning models themselves often suffer from comparable or even greater vulnerabilities in safety, robustness, and privacy. By synthesizing these insights, we hope this work serves as a valuable and timely resource for the AI safety community to stay informed on the latest progress in reasoning trustworthiness. A full list of related papers can be found at \href{https://github.com/ybwang119/Awesome-reasoning-safety}{https://github.com/ybwang119/Awesome-reasoning-safety}.
- Abstract(参考訳): Long-CoT推論の開発は、言語理解、複雑な問題解決、コード生成など、様々なタスクでLLMのパフォーマンスが向上した。
このパラダイムにより、モデルが中間的推論ステップを生成し、精度と解釈可能性の両方を改善することができる。
しかしながら、これらの進歩にもかかわらず、CoTに基づく推論が言語モデルの信頼性にどのように影響するかを包括的に理解することは未発達のままである。
本稿では、信頼に値する推論の5つの中核的な側面(真理性、安全性、堅牢性、公正性、プライバシ)に焦点を当てた推論モデルとCoT技術に関する最近の研究について調査する。
それぞれの側面において、年代順の最近の研究の明確かつ構造化された概要と、それらの方法論、発見、限界の詳細な分析を提供する。
今後の研究方向も、参照と議論のために最後に追加される。
全体として、推論技術は幻覚の緩和、有害なコンテンツ検出、堅牢性の改善を通じてモデルの信頼性を高めることを約束する一方で、最先端の推論モデル自体は、安全性、堅牢性、プライバシにおける同等あるいはそれ以上の脆弱性に悩まされることが多い。
これらの洞察を合成することによって、この研究がAI安全コミュニティにとって、信頼感を推し進める最新の進歩について情報を提供し続けるための、価値ある、タイムリーなリソースになることを願っています。
関連論文の全リストは、 \href{https://github.com/ybwang119/Awesome-reasoning-safety}{https://github.com/ybwang119/Awesome-reasoning-safety} にある。
関連論文リスト
- Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Test-Time Fairness and Robustness in Large Language Models [17.758735680493917]
Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
暗黙的な指示とは異なり、我々のプロンプト戦略は、フロンティアLSMのバイアスを一貫して減少させることを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - Towards Trustworthy and Aligned Machine Learning: A Data-centric Survey
with Causality Perspectives [11.63431725146897]
機械学習の信頼性はこの分野において重要なトピックとして浮上している。
本調査は,一貫した概念集合を用いた信頼性の高い機械学習開発の背景を示す。
我々は,これらの手法を,堅牢性,敵対的堅牢性,解釈可能性,公正性にまたがる数学的語彙を持つ統一言語を提供する。
論文 参考訳(メタデータ) (2023-07-31T17:11:35Z) - A Survey of Safety and Trustworthiness of Large Language Models through
the Lens of Verification and Validation [21.242078120036176]
大規模言語モデル(LLM)は、エンドユーザーと人間レベルの会話を行う能力のために、AIの新たな熱波を爆発させた。
この調査は、産業応用における安全性と信頼性に関するものである。
論文 参考訳(メタデータ) (2023-05-19T02:41:12Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - A Survey on Uncertainty Toolkits for Deep Learning [3.113304966059062]
ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。
モデリングおよび評価能力に関する11のツールキットについて検討する。
最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
論文 参考訳(メタデータ) (2022-05-02T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。