論文の概要: Structured Cognition for Behavioral Intelligence in Large Language Model Agents: Preliminary Study
- arxiv url: http://arxiv.org/abs/2510.05107v1
- Date: Tue, 23 Sep 2025 17:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.824828
- Title: Structured Cognition for Behavioral Intelligence in Large Language Model Agents: Preliminary Study
- Title(参考訳): 大規模言語モデルエージェントにおける行動インテリジェンスのための構造化認知:予備的検討
- Authors: Myung Ho Kim,
- Abstract要約: 我々は、推論、メモリ、制御を分離する代替アーキテクチャとして、Structured Cognitive Loop (SCL)を導入します。
SCLはモデルから認知負荷をオフロードし、中間結果を保存し、再確認し、アクションを取る前にチェックすることができる。
3つのシナリオにわたるReActや共通LangChainエージェントを含む,プロンプトベースのベースラインに対するSCLの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have advanced natural language understanding and generation, yet their use as autonomous agents raises architectural challenges for multi-step tasks. Existing frameworks often intertwine inference, memory, and control in a single prompt, which can reduce coherence and predictability. The Structured Cognitive Loop (SCL) is introduced as an alternative architecture that separates these functions. In SCL, the language model is dedicated to inference, memory is maintained externally, and execution is guided by a lightweight controller within a goal-directed loop. This design offloads cognitive load from the model and allows intermediate results to be stored, revisited, and checked before actions are taken, providing a clearer basis for traceability and evaluation. We evaluate SCL against prompt-based baselines including ReAct and common LangChain agents across three scenarios: temperature-based travel planning, email drafting with conditional send, and constraint-guided image generation. All systems share the same base model and tools under matched decoding settings. Across 360 episodes, SCL shows modest but consistent improvements. Task success averages 86.3 percent compared with 70-77 percent for baselines. Goal fidelity is higher, redundant calls are fewer, intermediate states are reused more reliably, and unsupported assertions per 100 tool calls are reduced. Ablations show that external memory and control each contribute independently, and decoding sweeps confirm stability of the effects. These results suggest that architectural separation can improve reliability and traceability without relying on larger models or heavier prompts. The findings are preliminary and intended to guide extended studies with additional models, longer horizons, multimodal tasks, and collaborative settings.
- Abstract(参考訳): 大規模言語モデルは、高度な自然言語理解と生成を持つが、自律エージェントとしての使用は、多段階タスクに対するアーキテクチャ上の課題を提起する。
既存のフレームワークは、推論、メモリ、制御を単一のプロンプトで行うことが多く、一貫性と予測可能性を減らすことができる。
構造化認知ループ (Structured Cognitive Loop, SCL) は、これらの機能を分離する代替アーキテクチャとして導入された。
SCLでは、言語モデルは推論専用であり、メモリは外部に保持され、実行はゴール指向ループ内の軽量コントローラによってガイドされる。
この設計は、モデルから認知負荷をオフロードし、中間結果の保存、再考、そしてアクションが実行される前にチェックを可能にし、トレーサビリティと評価の明確な基盤を提供する。
我々は、温度ベースの旅行計画、条件付き電子メールの起草、制約誘導画像生成の3つのシナリオにおいて、ReActや一般的なLangChainエージェントを含むプロンプトベースのベースラインに対してSCLを評価した。
すべてのシステムは、一致するデコード設定の下で同じベースモデルとツールを共有します。
360回にわたって、SCLは控えめだが一貫した改善を見せる。
タスク成功率は平均86.3%、ベースラインは70-77パーセントである。
ゴールの忠実度は高く、冗長な呼び出しは少なく、中間状態はより確実に再利用され、100のツールコール当たりのアサーションは減少する。
アブレーションは、外部メモリと制御がそれぞれ独立して寄与していることを示し、デコードスイープは効果の安定性を確認する。
これらの結果は、アーキテクチャ分離が、より大きなモデルや重いプロンプトに頼ることなく、信頼性とトレーサビリティを向上させることを示唆している。
この発見は予備的であり、さらなるモデル、より長い地平線、マルチモーダルタスク、協調的な設定による研究を導くことを意図している。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - SWE-Bench-CL: Continual Learning for Coding Agents [0.0]
SWE-Bench-CLは、人間検証されたSWE-Bench検証データセット上に構築された、新しい連続学習ベンチマークである。
GitHubのイシューを、自然リポジトリの進化を反映した時系列順序に整理することで、SWE-Bench-CLは、エージェントのエクスペリエンスを蓄積する能力を直接評価できる。
論文 参考訳(メタデータ) (2025-06-13T07:11:14Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Federated Learning over Hierarchical Wireless Networks: Training Latency Minimization via Submodel Partitioning [15.311309249848739]
階層型独立サブモデルトレーニング(Hierarchical independent submodel training、HIST)は、階層型クラウド-エッジ-クライアントネットワークにおけるこれらの問題に対処することを目的とした新しいFL方法論である。
本研究では,HISTを空気上計算(AirComp)で拡張することにより,エッジセル上でのモデルアグリゲーションの効率をより高めることができることを示す。
論文 参考訳(メタデータ) (2023-10-27T04:42:59Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Collaborative Uncertainty in Multi-Agent Trajectory Forecasting [35.013892666040846]
本稿では,対話モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、将来の軌跡とそれに対応する不確実性を学ぶための予測モデルを構築するための一般的なCUベースのフレームワークを構築した。
いずれの場合も、2つの合成データセットと2つの大規模軌跡予測ベンチマークについて広範な実験を行う。
論文 参考訳(メタデータ) (2021-10-26T18:27:22Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。