論文の概要: DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning
- arxiv url: http://arxiv.org/abs/2504.07128v2
- Date: Mon, 12 May 2025 18:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 18:50:51.332441
- Title: DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning
- Title(参考訳): DeepSeek-R1 Thoughtology: LLM Reasoningについて考えてみよう
- Authors: Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy,
- Abstract要約: 本稿では,DeepSeek-R1の思考長,長期的・紛らわしい文脈の管理,文化的・安全性に関する影響と制御性について検討する。
DeepSeek-R1には、余分な推論時間によってモデルパフォーマンスが損なわれるような推論の‘スイートスポット’がある。
また、DeepSeek-R1の安全性上の脆弱性は、非合理的な脆弱性と比べても大きい。
- 参考スコア(独自算出の注目度): 31.805726635329595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-\`a-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.
- Abstract(参考訳): DeepSeek-R1のような大規模な推論モデルは、LLMが複雑な問題にどのようにアプローチするかの根本的な変化を示している。
与えられた入力に対して直接回答を生成する代わりに、DeepSeek-R1は、答えを与える前に問題について"考える"ように見える、詳細な多段階推論チェーンを生成する。
この推論プロセスはユーザに公開されており、モデルの推論動作を研究し、思考の分野を開放する無限の機会を生み出します。
DeepSeek-R1の基本構造である推論ブロックの分類から、DeepSeek-R1における分析は、思考長の影響と制御性、長期的または混乱した文脈の管理、文化的・安全性上の懸念、そして人間のような言語処理や世界モデリングのようなDeepSeek-R1の視覚的認知現象の状況について考察する。
私たちの発見はニュアンスな絵を描きます。
特に、DeepSeek-R1には推論の‘スイートスポット’があり、余分な推論時間でモデルのパフォーマンスが損なわれます。
さらに,DeepSeek-R1は従来検討されていた問題定式化を継続的に緩和し,さらなる探索を妨害する傾向にある。
また、DeepSeek-R1の安全性上の脆弱性は、安全に配慮したLLMを損なう可能性もあります。
関連論文リスト
- Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons [11.429641860623143]
3つの最先端大規模言語モデル(LLM)の推論能力の評価と比較を行った。
DeepSeek-R1は、複数のタスクと問題サイズにまたがる最高F1スコアを一貫して達成している。
DeepSeek-R1の長時間の連鎖反応の詳細な分析により、独自の計画と検証戦略が明らかになった。
論文 参考訳(メタデータ) (2025-06-29T07:37:49Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。
提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。
提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文 参考訳(メタデータ) (2025-06-17T10:16:52Z) - OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文 参考訳(メタデータ) (2025-06-03T03:31:30Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability [29.437113221903715]
我々は、DeepSeek-R1モデルの安全対応バージョンとしてRealSafe-R1を紹介する。
本手法は,学習データを生成元の分布内に保持することにより,モデルの推論能力を維持できる。
論文 参考訳(メタデータ) (2025-04-14T10:26:37Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek R1 Expert Specialization [7.457737671087695]
オープンソースのMixture-of-Experts(MoE)モデルであるDeepSeek-R1は、プロプライエタリフロンティアモデルに匹敵する推論能力を実証した。
ルーティング機構が従来のMoEモデルよりもセマンティックな特化を示すかどうかを検討する。
We conclusion that DeepSeek-R1's routing mechanism are more semantically aware and involved in structured Cognitive process。
論文 参考訳(メタデータ) (2025-02-15T23:37:32Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies [0.0]
本稿では,DeepSeek-R1における有害なアウトプットを減らすための主要なアプローチとして,強化学習の限界について検討する。
我々はRLとSupervised Fine-Tuningを組み合わせたハイブリッドトレーニング手法を提案し、ロバストな無害化を実現する。
論文 参考訳(メタデータ) (2025-01-28T15:52:51Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。