論文の概要: ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning
- arxiv url: http://arxiv.org/abs/2503.24378v1
- Date: Mon, 31 Mar 2025 17:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.557017
- Title: ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning
- Title(参考訳): ACPBench Hard: 行動、変化、計画に関する制約のない推論
- Authors: Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi,
- Abstract要約: ACPBenchデータセットは、効率的な計画に必要なアトミック推論タスクを提供する。
このデータセットは、複雑なプラン生成タスクを別々のアトミック推論タスクに蒸留することを目的としている。
ACPBench Hard は ACPBench の生成版であり,モデルが答える必要のある質問に対してオープンに回答する。
- 参考スコア(独自算出の注目度): 22.47015814897628
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ACPBench dataset provides atomic reasoning tasks required for efficient planning. The dataset is aimed at distilling the complex plan generation task into separate atomic reasoning tasks in their easiest possible form, boolean or multiple-choice questions, where the model has to choose the right answer from the provided options. While the aim of ACPBench is to test the simplest form of reasoning about action and change, when tasked with planning, a model does not typically have options to choose from and thus the reasoning required for planning dictates an open-ended, generative form for these tasks. To that end, we introduce ACPBench Hard, a generative version of ACPBench, with open-ended questions which the model needs to answer. Models that perform well on these tasks could in principle be integrated into a planner or be used directly as a policy. We discuss the complexity of these tasks as well as the complexity of validating the correctness of their answers and present validation algorithms for each task. Equipped with these validators, we test the performance of a variety of models on our tasks and find that for most of these tasks the performance of even the largest models is still subpar. Our experiments show that no model outperforms another in these tasks and with a few exceptions all tested language models score below 65%, indicating that even the current frontier language models have a long way to go before they can reliably reason about planning. In fact, even the so-called reasoning models struggle with solving these reasoning tasks. ACPBench Hard collection is available at the following link: https://ibm.github.io/ACPBench
- Abstract(参考訳): ACPBenchデータセットは、効率的な計画に必要なアトミック推論タスクを提供する。
このデータセットは、複雑なプラン生成タスクを最も簡単な形で、最も簡単な形態、ブールまたは複数選択の質問に分割することを目的としており、モデルが提供されたオプションから正しい回答を選択する必要がある。
ACPBenchの目的は、行動と変化に関する最も単純な推論形式をテストすることであるが、計画に関するタスクでは、モデルは通常、選択する選択肢がなく、計画に必要な推論はこれらのタスクに対してオープンで生成的なフォームを規定する。
そこで本研究では, ACPBench Hard の生成版である ACPBench Hard を紹介する。
これらのタスクでうまく機能するモデルは、原則としてプランナーに統合されるか、ポリシーとして直接使用される。
本稿では,これらのタスクの複雑さと,それらの回答の正当性を検証し,各タスクに対する検証アルゴリズムを提案する。
これらの検証器を搭載して、タスク上で様々なモデルのパフォーマンスをテストし、これらのタスクの大部分において、最大のモデルでさえもまだ性能が低いことを発見した。
私たちの実験では、これらのタスクではモデルが他のモデルよりも優れておらず、いくつかの例外を除いて、すべてのテスト済み言語モデルが65%未満のスコアを示しており、現在のフロンティア言語モデルでさえ、計画について確実に推論できるまでには長い道のりがあることを示している。
実際、いわゆる推論モデルでさえ、これらの推論タスクの解決に苦労しています。
ACPBench Hardコレクションは以下のリンクで入手できる。
関連論文リスト
- Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - ACPBench: Reasoning about Action, Change, and Planning [22.47015814897628]
ACPBenchは、計画分野における推論タスクを評価するためのベンチマークである。
このコレクションは、形式言語で記述されたプランニングドメインから構築されている。
論文 参考訳(メタデータ) (2024-10-08T03:48:57Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Action-Evolution Petri Nets: a Framework for Modeling and Solving
Dynamic Task Assignment Problems [0.0]
Action-Evolution Petri Nets (A-E PN) は動的タスク割り当て問題のモデル化と解決のためのフレームワークである。
A-E PNモデルは実行可能であり、最適化された割り当てポリシーを学習するために使用できる。
A-E PNが最適配置ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-05T14:14:48Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。