論文の概要: Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem
- arxiv url: http://arxiv.org/abs/2602.21814v1
- Date: Wed, 25 Feb 2026 11:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.815438
- Title: Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem
- Title(参考訳): Prompt Architecture Determines Reasoning Quality: A variable isolated study on the Car Wash problem
- Authors: Heejin Jo,
- Abstract要約: 本研究では,生産システムのアーキテクチャ層が正しい推論を可能にする方法を検討する。
STAR(Situation-Task-Action-Result)推論フレームワークだけでは精度が0%から85%に向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models consistently fail the "car wash problem," a viral reasoning benchmark requiring implicit physical constraint inference. We present a variable isolation study (n=20 per condition, 6 conditions, 120 total trials) examining which prompt architecture layers in a production system enable correct reasoning. Using Claude 3.5 Sonnet with controlled hyperparameters (temperature 0.7, top_p 1.0), we find that the STAR (Situation-Task-Action-Result) reasoning framework alone raises accuracy from 0% to 85% (p=0.001, Fisher's exact test, odds ratio 13.22). Adding user profile context via vector database retrieval provides a further 10 percentage point gain, while RAG context contributes an additional 5 percentage points, achieving 100% accuracy in the full-stack condition. These results suggest that structured reasoning scaffolds -- specifically, forced goal articulation before inference -- matter substantially more than context injection for implicit constraint reasoning tasks.
- Abstract(参考訳): 大規模な言語モデルは、暗黙の物理的制約推論を必要とするバイラル推論ベンチマークである"洗車問題"を一貫して失敗する。
実運用システムにおけるアーキテクチャ層が正しい推論を可能にするための,変数分離試験(n=20,6条件,120総合試行)を提案する。
制御されたハイパーパラメータを持つクロード3.5ソンネット(温度0.7, top_p 1.0)を用いることで、STAR(Situation-Task-Action-Result)推論フレームワークだけで精度が0%から85%(フィッシャーの正確なテスト、オッズ比13.22)に上昇することがわかった。
ベクトルデータベース検索によるユーザプロファイルコンテキストの追加により、さらに10パーセントのポイントゲインが得られ、RAGコンテキストがさらに5パーセントのポイントを提供し、フルスタック条件で100%の精度を達成する。
これらの結果は、構造的推論足場(特に推論の前に強制的な目標記述)が、暗黙的な制約推論タスクの文脈注入よりも重要であることを示唆している。
関連論文リスト
- When Small Models Are Right for Wrong Reasons: Process Verification for Trustworthy Agents [0.0]
小さな言語モデルからの正しい回答の50~69%は、根本的な欠陥のある推論を含んでいる。
本稿では,レイタ間合意を実質的に検証したプロセスベース計量であるReasoning Integrity Score(RIS)を紹介する。
メタ認知は十分なモデルキャパシティを伴わずに混乱を増幅するのに対し、RAGは外部のエビデンスに基礎を置き、エラーを7.6%削減する。
論文 参考訳(メタデータ) (2026-01-01T23:54:15Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。