論文の概要: Zero-Shot Goal Recognition with Large Language Models
- arxiv url: http://arxiv.org/abs/2605.15333v1
- Date: Thu, 14 May 2026 18:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.06341
- Title: Zero-Shot Goal Recognition with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたゼロショットゴール認識
- Authors: Kin Max Piamolini Gusmão, Nathan Gavenski, Nir Oren, Felipe Meneguzzi,
- Abstract要約: 大規模言語モデルは、よく知られた計画領域における古典的なプランナーとほぼ一致している。
ゴール認識は、LLM強度によく適合する相補的帰納的タスクである。
本稿では,主要なPDDLベンチマーク上でのゴール認識として,フロンティアLCMのゼロショット評価を行う。
- 参考スコア(独自算出の注目度): 6.023276947115864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have recently reached near-parity with classical planners on well-known planning domains, yet this competence relies on world-knowledge exploitation rather than genuine symbolic reasoning. Goal recognition is a complementary abductive task structurally better suited to LLM strengths: it consists of evaluating consistency with world knowledge rather than generating novel action sequences. This paper provides the first systematic zero-shot evaluation of frontier LLMs as goal recognisers on key classical PDDL benchmarks. Our results show that LLM competence on goal recognition is uneven: some models scale with evidence and approach landmark-based accuracy at full observations, while others remain anchored to world-knowledge priors regardless of how much evidence accumulates. Qualitative analysis of model reasoning traces reveals that this divergence reflects a fundamental difference in evidence integration rather than domain familiarity. These findings position goal recognition as a principled benchmark for the foundational planning knowledge of LLMs.
- Abstract(参考訳): 大規模言語モデルは、よく知られた計画領域の古典的プランナーとほぼ一致しているが、この能力は真の象徴的推論ではなく、世界知識による搾取に依存している。
ゴール認識(Goal recognition)は、LLMの強みによく適合する補完的帰納的タスクであり、新しいアクションシーケンスを生成するのではなく、世界知識との整合性を評価することである。
本稿では,従来のPDDLベンチマークにおいて,ゴール認識器としてフロンティアLSMを初めて体系的にゼロショット評価する。
結果から,LLMの目標認識能力は不均一であることが示唆された。いくつかのモデルでは,証拠の蓄積量に関わらず,実測値と一致し,ランドマークに基づく精度にアプローチする。
モデル推論トレースの定性的解析により、この発散は、領域に親しみやすいというよりは、エビデンス統合の根本的な違いを反映していることが明らかになった。
これらの知見は, LLMの基礎的計画知識の基準として, 目標認識を位置づけた。
関連論文リスト
- Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [1.1161827123148225]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。