論文の概要: Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2508.14564v1
- Date: Wed, 20 Aug 2025 09:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.415317
- Title: Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs
- Title(参考訳): LLMにおける審美的推論のための構造的思考-行動シーケンス
- Authors: Luca Annese, Sabrina Patania, Silvia Serino, Tom Foulsham, Silvia Rossi, Azzurra Ruggeri, Dimitri Ognibene,
- Abstract要約: 本研究では,LLMをベースとしたReActフレームワークの性能向上のための構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、ステップバイステップの最適決定シーケンス(L型)の3つのカテゴリの例を生成する、構造化された解処理パイプラインを提案する。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
- 参考スコア(独自算出の注目度): 1.090218572228214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models (LLMs) and reasoning frameworks have opened new possibilities for improving the perspective -taking capabilities of autonomous agents. However, tasks that involve active perception, collaborative reasoning, and perspective taking (understanding what another agent can see or knows) pose persistent challenges for current LLM-based systems. This study investigates the potential of structured examples derived from transformed solution graphs generated by the Fast Downward planner to improve the performance of LLM-based agents within a ReAct framework. We propose a structured solution-processing pipeline that generates three distinct categories of examples: optimal goal paths (G-type), informative node paths (E-type), and step-by-step optimal decision sequences contrasting alternative actions (L-type). These solutions are further converted into ``thought-action'' examples by prompting an LLM to explicitly articulate the reasoning behind each decision. While L-type examples slightly reduce clarification requests and overall action steps, they do not yield consistent improvements. Agents are successful in tasks requiring basic attentional filtering but struggle in scenarios that required mentalising about occluded spaces or weighing the costs of epistemic actions. These findings suggest that structured examples alone are insufficient for robust perspective-taking, underscoring the need for explicit belief tracking, cost modelling, and richer environments to enable socially grounded collaboration in LLM-based agents.
- Abstract(参考訳): 大規模言語モデル(LLM)や推論フレームワークの最近の進歩は、自律エージェントの視点獲得能力を改善する新たな可能性を開いた。
しかしながら、アクティブな認識、協調的推論、視点の取扱い(他のエージェントが何を見たり、知っているかに関わらず)を含むタスクは、現在のLLMベースのシステムに永続的な課題を生じさせる。
本研究では,Fast Downward Planner が生成した変換解グラフから導出した構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、代替アクション(L型)とは対照的なステップバイステップの最適決定シーケンスという、3つの異なるカテゴリの例を生成する構造化された解処理パイプラインを提案する。
これらの解は、LLMに各決定の背景にある推論を明確に明示するように促すことにより、さらに「考え-行動」の例に変換される。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
エージェントは基本的な注意フィルタリングを必要とするタスクで成功しているが、隠された空間を意識したり、てんかん行為のコストを測る必要のあるシナリオで苦労する。
これらの結果は、構造化された例だけでは、堅固な視点を取るには不十分であることが示唆され、LLMベースのエージェントで社会的に基盤付けられたコラボレーションを可能にするために、明確な信念追跡、コストモデリング、より豊かな環境の必要性が強調された。
関連論文リスト
- ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments [7.508204100423766]
LLMを用いた推論のためのマルチエージェントアーキテクチャであるARIESを紹介する。
教師付き微調整(SFT)のない政策エージェントとして市販のLCMを使用することで,HumanEvalの精度が最大29%向上することが観察された。
また、観測された障害モードの徹底的な解析を行い、LLMサイズと問題分解の深さの制限が、LLM誘導推論をスケールする上での課題であることを示した。
論文 参考訳(メタデータ) (2025-02-28T16:28:13Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。