論文の概要: ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.05737v1
- Date: Thu, 07 May 2026 06:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.563197
- Title: ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning
- Title(参考訳): ReFlect: 複合長軸LLM推論のための効果的なハーネスシステム
- Authors: Fan Huang,
- Abstract要約: 本稿では,LLM推論のためのシステムであるReFlectについて述べる。
6つの推論領域にまたがる制御された実験により、100個の監査された反射ブロックのうち90個の問題にフラグを付けない、プロンプトレベルの自己批判が公式テンプレートを生成することが示された。
我々のReFlectハーネスは, GPT-4o-miniで41%, Claude Sonnet 4.5で56%のタスク成功率を実現している。
- 参考スコア(独自算出の注目度): 5.523132953818281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current reasoning paradigms for LLMs include chain-of-thought, ReAct, and post-hoc self-critique. These paradigms rely on two assumptions that fail on long-horizon, multi-stage tasks. As a result, errors accumulate silently across reasoning steps, leaving an open question: can a reasoning system effectively detect and recover from its own failures? We present ReFlect, a \emph{harness} system for LLM reasoning that creates standalone error detection and recovery logic as a deterministic wrapper around the model. Controlled experiments across 6 reasoning domains show that prompt-level self-critique produces formulaic templates that flag no issues in 90 of 100 audited reflection blocks, and the investigated LLMs wrongly accept a wrong answer in at least 76\% of cases. Our ReFlect harness achieves task success rates ranging from 41\% on gpt-4o-mini to 56\% on Claude Sonnet 4.5 across six models spanning small and frontier scale, with per-model gains over Direct CoT ranging from +7 pp on Qwen2.5-72B to +29 pp on Claude Sonnet 4.5, and additionally raises SWE-bench patch-structural quality from 0\% (Direct CoT) to between 82\% (Qwen2.5-72B) and 87\% (GPT-4o). Notably, the harness gain is inversely proportional to the model's Direct CoT task success rate (the fitted slope is -1.69 with r=-0.76): each pp lost in baseline success rate is mechanically recovered by 1.69 pp of harness gain. We spot that adding structured reasoning state and operators yields only 15.0--18.7\% pair-mean on Llama-3.3-70B and Qwen2.5-72B because models at this scale cannot reliably populate the state its operators require. ReFlect is model-agnostic, training-free, and operates entirely at inference time.
- Abstract(参考訳): LLMの現在の推論パラダイムには、チェーン・オブ・ソート、ReAct、ポストホックな自己批判などがある。
これらのパラダイムは、長期のマルチステージタスクで失敗する2つの仮定に依存している。
その結果、推論ステップ全体でエラーが静かに蓄積され、オープンな疑問が残る: 推論システムは、自身の障害を効果的に検出し、回復できますか?
本稿では,LLM推論のための「emph{harness}」システムであるReFlectについて述べる。
6つの推論領域にまたがる制御された実験により、100個の監査された反射ブロックのうち90個の問題にフラグを付けない形式的テンプレートが生成され、調査されたLSMは、少なくとも66%のケースで間違った回答を誤って受け入れていることが示された。
我々のReFlectハーネスは、小規模・フロンティアスケールにまたがる6つのモデルでgpt-4o-miniの41\%から56\%までのタスク成功率、Qwen2.5-72Bの7ppからcude Sonnet 4.5の29ppまでのモデル当たりの利得、さらにSWE-benchパッチ構造品質を0\%(Direct CoT)から82\%(Qwen2.5-72B)から87\%(GPT-4o)まで向上させる。
特に、ハーネスゲインはモデルのダイレクトCoTタスク成功率に逆比例する(嵌合斜面は-1.69でr=-0.76)。
Llama-3.3-70B と Qwen2.5-72B のペア平均が 15.0--18.7 % になるのは、このスケールのモデルが演算子の要求する状態を確実に再現できないからである。
ReFlectはモデルに依存しない、トレーニング不要で、推論時に完全に動作する。
関連論文リスト
- One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs [0.0]
大型言語モデルの既知特性を同定する。
完全な証拠が取り除かれる前に、自信と怒りの度合いを増す。
パラメトリック幻覚信頼(Parametric Hallucination Confidence,PHC)としてコミットし、6行のエビデンスで確立する。
論文 参考訳(メタデータ) (2026-04-02T02:13:45Z) - The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning [9.898274894485107]
大きな言語モデルは、サージェントサーフェスキューが計算不可能な実行可能性制約と競合する場合に、体系的に失敗する。
診断・診断・ブリッジ・トリート・フレームワークを用いてこれを研究する。
論文 参考訳(メタデータ) (2026-03-30T21:36:09Z) - Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks [5.523132953818281]
CoT(Chain-of-Thought)は線形トレースを生成し、ToT(Tree-of-Thought)は分岐探索を実行する。
タイプノードとエッジを持つ有向グラフとして推論をモデル化するフレームワークであるNetwork-of-Thought (NoT)を提案する。
論文 参考訳(メタデータ) (2026-03-21T09:32:28Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。