Fugu-MT 論文翻訳(概要): Dynamic Chain-of-Thought: Towards Adaptive Deep Reasoning

論文の概要: Dynamic Chain-of-Thought: Towards Adaptive Deep Reasoning

arxiv url: http://arxiv.org/abs/2502.10428v2
Date: Tue, 18 Feb 2025 10:07:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 15:46:50.406775
Title: Dynamic Chain-of-Thought: Towards Adaptive Deep Reasoning
Title（参考訳）: ダイナミック・チェーン・オブ・ワット:適応型ディープ・推論を目指して
Authors: Libo Wang,
Abstract要約: 本研究では、適応的な推論時間とステップを持つ動的連鎖(D-CoT)を提案する。実験の結果,D-CoTは3つの指標(推論時間,CoT長さ(推論ステップ),トークン数)で,DeepSeek R1よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 4.586907225774023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To reduce the cost and consumption of computing resources caused by computational redundancy and delayed reward assignment in long CoT, this research proposes the dynamic chain-of-thought (D-CoT) with adaptive reasoning time and steps. The researcher used simulation experiment to simulate the integration of D-CoT through Python 3.13 IDLE combined with a Python simulator based on GPTs. At the same time, the researcher used DeepSeek R1 as a control group to test and compare the performance of the D-CoT simulator in processing MIT OpenCourseWare's linear algebra exam questions. Experimental results show that D-CoT is better than DeepSeek R1 based on long CoT in three indicators: reasoning time, CoT length (reasoning steps) and token count, which achieves a significant reduction in computing resource consumption. In addition, this research has potential value in deep reasoning optimization that is used as a reference for future dynamic deep reasoning frameworks.
Abstract（参考訳）: 長期CoTにおける計算冗長性と遅延報酬割り当てによる計算資源のコストと消費を低減するため,適応的な推論時間とステップを持つ動的連鎖(D-CoT)を提案する。研究者はシミュレーション実験を使用して、Python 3.13 IDLEとGPTに基づくPythonシミュレータを組み合わせたD-CoTの統合をシミュレートした。同時に、研究者はDeepSeek R1を制御グループとして使用し、MIT OpenCourseWareの線形代数試験問題を処理する際のD-CoTシミュレータの性能を比較した。実験結果から,D-CoTは長いCoTに基づいて,推論時間,CoT長さ(推論ステップ),トークン数という3つの指標でD-CoTがDeepSeek R1よりも優れていることがわかった。さらに,本研究は,将来の動的深部推論フレームワークの参照として使用される深部推論最適化において潜在的価値を有する。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文参考訳（メタデータ） (2025-06-17T10:16:52Z)
EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation [37.6583581020347]
資源効率のよい推論学習におけるCoT凝縮の問題点について検討する。本研究では,各CoTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジ保存凝縮法 EPiC を提案する。
論文参考訳（メタデータ） (2025-06-04T17:49:10Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
Reward Model Generalization for Compute-Aware Test-Time Reasoning [21.05692631562457]
外部テスト時推論は、生成と選択を分離することで、大きな言語モデル(LLM)を強化する。この設定における中心的な課題は、テスト時間計算の最適性(TCO)、すなわち、固定された推論予算の下で答えの正確さを最大化する方法である。 PRMの一般化誤差が計算効率と推論性能に与える影響を解析する。そこで本研究では,探索動作を動的に制御するアクター・クリティカルなフレームワークであるCompute-Aware Tree Search (CATS)を提案する。
論文参考訳（メタデータ） (2025-05-23T16:12:12Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。 Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文参考訳（メタデータ） (2025-02-22T14:13:37Z)
Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Optimizing VarLiNGAM for Scalable and Efficient Time Series Causal Discovery [5.430532390358285]
因果発見は、データの因果関係を特定するように設計されている。時系列因果発見は、時間的依存と潜在的な時間ラグの影響を考慮する必要があるため、特に困難である。本研究は大規模データセット処理の実現可能性を大幅に改善する。
論文参考訳（メタデータ） (2024-09-09T10:52:58Z)
Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent [23.669599662214686]
HyperAgentは、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムである。我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。
論文参考訳（メタデータ） (2024-02-05T07:07:30Z)
R^3: On-device Real-Time Deep Reinforcement Learning for Autonomous Robotics [9.2327813168753]
本稿では、デバイス上でのリアルタイムDRLトレーニングにおけるタイミング、メモリ、アルゴリズム性能を管理するための総合的なソリューションR3を提案する。 R3は、(i)動的バッチサイズを最適化するためのデッドライン駆動フィードバックループ、(ii)メモリフットプリントを削減し、より大きなリプレイバッファサイズを実現するための効率的なメモリ管理、(iii)ランタイム分析によってガイドされるランタイムコーディネータ、およびメモリリソース予約を調整するランタイムプロファイラを採用している。
論文参考訳（メタデータ） (2023-08-29T05:48:28Z)
Deep reinforcement learning applied to an assembly sequence planning problem with user preferences [1.0558951653323283]
本稿では,アセンブリシーケンス計画問題におけるDRL手法の実装に対するアプローチを提案する。提案手法では,RL環境のパラメトリックな動作を導入し,トレーニング時間とサンプル効率を改善する。その結果,人的相互作用を伴う組立シーケンス計画問題への深層強化学習の適用の可能性が示唆された。
論文参考訳（メタデータ） (2023-04-13T14:25:15Z)
Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。 REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。 PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文参考訳（メタデータ） (2022-09-19T08:42:46Z)
Training Robust Deep Models for Time-Series Domain: Novel Algorithms and Theoretical Analysis [32.45387153404849]
時系列分類タスクのための堅牢なDNNを作成するために,RObust Training for Time-Series (RO-TS) と呼ばれる新しいフレームワークを提案する。時系列アライメントによる和構造を用いた定式化の一般化と利点を示す。実世界のベンチマーク実験により, RO-TSは, 対戦型トレーニングと比較して, より堅牢なDNNを生成することが示された。
論文参考訳（メタデータ） (2022-07-09T17:21:03Z)
AsySQN: Faster Vertical Federated Learning Algorithms with Better Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文参考訳（メタデータ） (2021-09-26T07:56:10Z)
Longitudinal Deep Kernel Gaussian Process Regression [16.618767289437905]
縦型ディープカーネルプロセスレグレッション(L-DKGPR)を導入する。 L-DKGPRは、縦方向のデータから複雑な多レベル相関構造の発見を自動化する。そこで我々は,L-DKGPRを学習するための効率的なアルゴリズムを,遅延空間誘導点と変分推論を用いて導出した。
論文参考訳（メタデータ） (2020-05-24T15:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。