論文の概要: ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
- arxiv url: http://arxiv.org/abs/2510.09062v1
- Date: Fri, 10 Oct 2025 07:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.301252
- Title: ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
- Title(参考訳): ReFIne: 信頼性、信条、解釈性を備えた信頼できる大規模推論モデルのためのフレームワーク
- Authors: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng,
- Abstract要約: 使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
- 参考スコア(独自算出の注目度): 23.70973331911138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
- Abstract(参考訳): ロングチェーン・オブ・ソート(CoT)推論の最近の進歩は、信頼性に重要な側面を見越しながら、解答精度とトークン効率を大きく優先順位付けしている。
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
この目的のために,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークであるReFIneを提案する。
一 人間が従うのが容易な高レベルの計画で、構造化されたタグベースのトレースを作成することにより、解釈可能性を向上させること。
二 各解決を導く決定的情報を一貫した断面基準で明示的に開示し、忠実性を高めること。
三 導出の健全性及び最終回答の信頼度を自己評価することにより、信頼性を高めること。
複数スケール(1.7B/4B/8B)のQwen3モデルにReFIneを適用し、様々な難易度のある数学ベンチマークで評価する。
実験の結果、ReFIneモデルはより明確でより構造化された推論トレース(解釈可能性+44.0%)を生成し、基礎となる決定プロセス(信頼度+18.8%)をより忠実に公開し、情報的信頼度推定(信頼性+42.4%)を提供することが示された。
推論モデルは、正確性だけでなく、より幅広い信頼性の次元のために最適化されるべきである。
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
関連論文リスト
- Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems [94.9141394384021]
マルチエージェントシステムの個々のエージェントは、しばしば堅牢性を欠き、誤解を招く仲間に盲目的に適合する傾向にある。
この弱点は, 相互信頼度を評価する能力の欠如に起因していると考えられる。
まず,歴史認識参照の学習問題を定式化し,ピア間の歴史的相互作用を付加的な入力として導入する。
次に,歴史的に構築されたピアプロファイルの予測を行うための推論フレームワークであるEcestemic Context Learning (ECL) を開発した。
論文 参考訳(メタデータ) (2026-01-29T13:59:32Z) - Revisiting the Reliability of Language Models in Instruction-Following [15.281163913211818]
LLMはIFEvalなどのベンチマークでほぼシーリングの命令追従精度を達成した。
モデルが類似のユーザ意図を伝達する従兄弟のプロンプトに対して、微妙なニュアンスで一貫した能力を示すかどうか、ニュアンス指向の信頼性について検討する。
以上の結果から, ニュアンス指向の信頼性は, 信頼性が高く信頼性の高いLCM行動に向けた重要かつ過小評価された次のステップであることがわかった。
論文 参考訳(メタデータ) (2025-12-15T02:57:55Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints [18.10515528600634]
提案するtextbfDeliberative Searcher は,探索に基づくオープンドメイン質問応答の検索と確実なキャリブレーションを統合した最初のフレームワークである。
このエージェントはウィキペディアのデータに対して多段階のリフレクションと検証を行い、ソフトな信頼性制約の下で精度を最適化する強化学習アルゴリズムで訓練される。
論文 参考訳(メタデータ) (2025-07-22T16:09:34Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。
そこで我々は,新しい特徴を設計し,その信頼性を推定するために,これらの特徴に対する(解釈可能な)モデル(つまりロジスティック回帰)を訓練する,シンプルで汎用的なフレームワークを提案する。
我々は,Flan-ul2,-13b,Mistral-7b,GPT-4の4つのベンチマークQ&Aタスクおよび2つのベンチマーク要約タスクにおけるPegasus-large,BART-largeの信頼性を推定する上で,我々の単純なフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T02:08:44Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。
ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。
本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。