論文の概要: BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs
- arxiv url: http://arxiv.org/abs/2505.13529v1
- Date: Sun, 18 May 2025 07:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.371603
- Title: BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs
- Title(参考訳): BARREL:実物と信頼性のための境界認識推論
- Authors: Junxiao Yang, Jinzhe Tu, Haoran Liu, Xiaoce Wang, Chujie Zheng, Zhexin Zhang, Shiyao Cui, Caishun Chen, Tiantian He, Hongning Wang, Yew-Soon Ong, Minlie Huang,
- Abstract要約: 本稿では,簡潔かつ境界認識の事実推論を促進するフレームワークであるBARRELを提案する。
BARRELトレーニングにより,DeepSeek-R1-Distill-Llama-8Bの信頼性は39.33%から61.48%向上した。
- 参考スコア(独自算出の注目度): 87.24843751412783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Reasoning Models (LRMs) have shown impressive capabilities in mathematical and logical reasoning. However, current LRMs rarely admit ignorance or respond with "I don't know". Instead, they often produce incorrect answers while showing undue confidence, raising concerns about their factual reliability. In this work, we identify two pathological reasoning patterns characterized by overthinking that contribute to the overconfident and incorrect answers: last-minute guessing and second-thought spiraling. To address these issues, we propose BARREL-a novel framework that promotes concise and boundary-aware factual reasoning. Our experiments show that BARREL-training increases the reliability of DeepSeek-R1-Distill-Llama-8B from 39.33% to 61.48%, while still achieving accuracy comparable to models finetuned on reasoning data generated by R1. These results demonstrate that our pilot study is inspiring to build more reliable and factual System 2 LRMs.
- Abstract(参考訳): 近年のLRM(Large Reasoning Models)の進歩は、数学的および論理的推論において顕著な能力を示している。
しかし、現在のLRMは「私は知らない」という無知をほとんど認めない。
その代わりに、しばしば誤った回答を出し、不適切な信頼を示し、その事実の信頼性に対する懸念を提起します。
本研究は, 過度に自信と誤った回答に寄与する過度な考察を特徴とする2つの病理学的推論パターンを同定する。
これらの問題に対処するため,我々は,簡潔かつ境界対応な事実推論を促進する新しいフレームワークであるBARRELを提案する。
実験の結果,BARRELトレーニングにより,DeepSeek-R1-Distill-Llama-8Bの信頼性は39.33%から61.48%に向上した。
これらの結果は、我々のパイロット研究がより信頼性が高く、現実的なSystem 2 LRMの構築を刺激していることを示している。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文 参考訳(メタデータ) (2023-11-16T06:22:17Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。