論文の概要: The cognitive companion: a lightweight parallel monitoring architecture for detecting and recovering from reasoning degradation in LLM agents
- arxiv url: http://arxiv.org/abs/2604.13759v1
- Date: Wed, 15 Apr 2026 11:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.5134
- Title: The cognitive companion: a lightweight parallel monitoring architecture for detecting and recovering from reasoning degradation in LLM agents
- Title(参考訳): LLMエージェントの推論劣化の検出と回復のための軽量並列監視アーキテクチャ
- Authors: Rafflesia Khan, Nafiul Islam Khan,
- Abstract要約: マルチステップタスクにおける大規模言語モデル(LLM)エージェントは、ハードタスクにおいて最大30%の速度で劣化、ループ、ドリフト、スタント状態の推論に苦しむ。
本稿では,2つの実装を持つ並列監視アーキテクチャであるCognitive Companionを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents on multi-step tasks suffer reasoning degradation, looping, drift, stuck states, at rates up to 30% on hard tasks. Current solutions include hard step limits (abrupt) or LLM-as-judge monitoring (10-15% overhead per step). This paper introduces the Cognitive Companion, a parallel monitoring architecture with two implementations: an LLM-based Companion and a novel zero-overhead Probe-based Companion. We report a three-batch feasibility study centered on Gemma 4 E4B, with an additional exploratory small-model analysis on Qwen 2.5 1.5B and Llama 3.2 1B. In our experiments, the LLM-based Companion reduced repetition on loop-prone tasks by 52-62% with approximately 11% overhead. The Probe-based Companion, trained on hidden states from layer 28, showed a mean effect size of +0.471 at zero measured inference overhead; its strongest probe result achieved cross-validated AUROC 0.840 on a small proxy-labeled dataset. A key empirical finding is that companion benefit appears task-type dependent: companions are most helpful on loop-prone and open-ended tasks, while effects are neutral or negative on more structured tasks. Our small-model experiments also suggest a possible scale boundary: companions did not improve the measured quality proxy on 1B-1.5B models, even when interventions fired. Overall, the paper should be read as a feasibility study rather than a definitive validation. The results provide encouraging evidence that sub-token monitoring may be useful, identify task-type sensitivity as a practical design constraint, and motivate selective companion activation as a promising direction for future work.
- Abstract(参考訳): マルチステップタスクにおける大規模言語モデル(LLM)エージェントは、ハードタスクにおいて最大30%の速度で劣化、ループ、ドリフト、スタント状態の推論に苦しむ。
現在のソリューションには、ハードステップ制限(突然)やLCM-as-judgeモニタリング(ステップ当たり10~15%のオーバーヘッド)が含まれる。
本稿では,LLMベースのコンパニオンと新しいゼロオーバーヘッドプローブベースのコンパニオンの2つの実装を備えた並列監視アーキテクチャであるCognitive Companionを紹介する。
Gemma 4 E4Bを中心に,Qwen 2.5 1.5BとLlama 3.2 1Bの探索的小モデル解析を行った。
実験では,LLMをベースとしたCompanionにより,ループ進行タスクの繰り返しを52~62%削減し,約11%のオーバヘッドを実現した。
層28からの隠れ状態に基づいて訓練されたプローブベースのコンパニオンは、測定された推定オーバーヘッドゼロで+0.471の平均効果サイズを示し、その最強のプローブは、小さなプロキシラベル付きデータセットでAUROC 0.840をクロスバリデーションした。
主要な経験的発見は、副次的利益がタスクタイプに依存しているように見えることである。
1B-1.5Bモデルでは, 介入が発火しても, コンパニオンは測定品質のプロキシを改善できなかった。
全体として、本論文は確定的な検証ではなく、実現可能性研究として読むべきである。
その結果、サブトークンモニタリングが有用であることを示すとともに、タスクタイプの感度を実用的な設計制約として認識し、将来の作業の有望な方向として選択的な協調活性化を動機付けることが示唆された。
関連論文リスト
- Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases [17.35673829214932]
我々は、MIMIC-IVをベースとしたRWE-benchについて、ピアレビューによる観察研究から紹介する。
各タスクは対応する研究プロトコルを基準として提供し、エージェントは実際のデータベースで実験を行う必要がある。
162タスク全体では、タスク成功率は低く、最高のエージェントが39.9%、最高のオープンソースモデルが30.4%に達する。
論文 参考訳(メタデータ) (2026-03-24T03:50:34Z) - MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Language-based Trial and Error Falls Behind in the Era of Experience [50.503828360874536]
大きな言語モデル(LLM)は、言語ベースのエージェントタスクでは優れているが、見つからない非言語環境への適用性は依然として限られている。
本研究では,探索の禁止コストが主なボトルネックであることを示す。
セマンティック・エクスプロイトから探索を分離する新しいフレームワークであるSCOUTを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:08:41Z) - TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning [33.47825979936341]
検証可能な報酬(RLVR)を用いた強化学習は、大きな推論モデル(LRM)の訓練に有効であることが証明された。
提案アルゴリズムは,学習軌跡とラベル付き標本との類似性を一致させることで,信頼できない標本を同定する。
1Kのラベル付きサンプルと3Kのラベルなしサンプルだけで、TraPOの平均精度は42.6%に達し、45Kのラベルなしサンプル(38.3%)で訓練された最高の教師なしメソッドを上回った。
論文 参考訳(メタデータ) (2025-12-15T09:03:45Z) - Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory? [13.980638430366625]
推論 LLM は推論プロセスの言語化のために訓練され、複雑なタスクに対して強い利益をもたらす。
重要な前提条件は、他のモデルの部分的思考に基づいて有用性を評価し、構築する能力である。
本稿では,標準の単調訓練パイプラインが望ましい軌道外行動を提供できるか,という課題を考察する。
論文 参考訳(メタデータ) (2025-10-07T19:42:50Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。