論文の概要: Exploring State Tracking Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10457v1
- Date: Fri, 14 Nov 2025 01:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.877429
- Title: Exploring State Tracking Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの状態追跡機能を探る
- Authors: Kiamehr Rezaee, Jose Camacho-Collados, Mohammad Taher Pilehvar,
- Abstract要約: 大きな言語モデル(LLM)は、複雑なタスクを解くのに素晴らしい能力を示しています。
本稿では、複数のエンティティを管理する状態をモデルが追跡する必要がある問題である状態追跡に焦点を当てる。
- 参考スコア(独自算出の注目度): 13.637023481961926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in solving complex tasks, including those requiring a certain level of reasoning. In this paper, we focus on state tracking, a problem where models need to keep track of the state governing a number of entities. To isolate the state tracking component from other factors, we propose a benchmark based on three well-defined state tracking tasks and analyse the performance of LLMs in different scenarios. The results indicate that the recent generation of LLMs (specifically, GPT-4 and Llama3) are capable of tracking state, especially when integrated with mechanisms such as Chain of Thought. However, models from the former generation, while understanding the task and being able to solve it at the initial stages, often fail at this task after a certain number of steps.
- Abstract(参考訳): 大きな言語モデル(LLM)は、あるレベルの推論を必要とするものを含む複雑なタスクを解く際、印象的な能力を示している。
本稿では,複数のエンティティを管理する状態の追跡をモデルが行なわなければならない問題である状態追跡に焦点を当てる。
状態追跡コンポーネントを他の要因から分離するために,3つの明確に定義された状態追跡タスクに基づくベンチマークを提案し,異なるシナリオにおけるLLMの性能を解析する。
その結果,最近のLSM(特にGPT-4とLlama3)は,特にChain of Thoughtのような機構と統合された場合,状態の追跡が可能であることが示唆された。
しかし、前世代のモデルでは、タスクを理解し、最初の段階でそれを解決できる一方で、あるステップの後にこのタスクで失敗することが多い。
関連論文リスト
- STATUS Bench: A Rigorous Benchmark for Evaluating Object State Understanding in Vision-Language Models [28.438936778310865]
対象状態の微妙な変化を理解するための視覚言語モデルの有効性を厳格に評価する最初のベンチマークであるSTATUS Benchを紹介する。
STATUS Benchは、オブジェクト状態識別(OSI)、画像検索(IR)、状態変化識別(SCI)の3つのタスクを同時に実行するためにVLMを必要とする。
さらに,1300万の半自動記述からなる大規模トレーニングデータセットSTATUS Trainを導入する。
論文 参考訳(メタデータ) (2025-10-26T08:04:28Z) - MSCoRe: A Benchmark for Multi-Stage Collaborative Reasoning in LLM Agents [7.339769470891067]
MSCoReは、自動車、医薬品、エレクトロニクス、エネルギー分野のシナリオにまたがる126696ドメイン固有のQAインスタンスからなる新しいベンチマークである。
商用モデルはすべてのタスクやシナリオで最高に機能するが、ROUGEのスコアの顕著な差は、単純なタスクと複雑なタスクの間にある。
MSCoReは、LLMエージェントの多段階推論を評価し改善するための、コミュニティにとって価値のある新しいリソースを提供する。
論文 参考訳(メタデータ) (2025-09-22T11:36:16Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Effective Sequence-to-Sequence Dialogue State Tracking [22.606650177804966]
事前学習対象の選択は、状態追跡品質に有意な違いをもたらすことを示す。
また、状態追跡モデルに対して、テキスト要約のための予測に基づく事前学習目的であるPegasusについても検討する。
その結果,対話状態の追跡には,遠隔要約タスクの事前学習が驚くほど有効であることが判明した。
論文 参考訳(メタデータ) (2021-08-31T17:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。