論文の概要: ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
- arxiv url: http://arxiv.org/abs/2510.09062v1
- Date: Fri, 10 Oct 2025 07:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.301252
- Title: ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
- Title(参考訳): ReFIne: 信頼性、信条、解釈性を備えた信頼できる大規模推論モデルのためのフレームワーク
- Authors: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng,
- Abstract要約: 使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
- 参考スコア(独自算出の注目度): 23.70973331911138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
- Abstract(参考訳): ロングチェーン・オブ・ソート(CoT)推論の最近の進歩は、信頼性に重要な側面を見越しながら、解答精度とトークン効率を大きく優先順位付けしている。
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
この目的のために,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークであるReFIneを提案する。
一 人間が従うのが容易な高レベルの計画で、構造化されたタグベースのトレースを作成することにより、解釈可能性を向上させること。
二 各解決を導く決定的情報を一貫した断面基準で明示的に開示し、忠実性を高めること。
三 導出の健全性及び最終回答の信頼度を自己評価することにより、信頼性を高めること。
複数スケール(1.7B/4B/8B)のQwen3モデルにReFIneを適用し、様々な難易度のある数学ベンチマークで評価する。
実験の結果、ReFIneモデルはより明確でより構造化された推論トレース(解釈可能性+44.0%)を生成し、基礎となる決定プロセス(信頼度+18.8%)をより忠実に公開し、情報的信頼度推定(信頼性+42.4%)を提供することが示された。
推論モデルは、正確性だけでなく、より幅広い信頼性の次元のために最適化されるべきである。
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。