論文の概要: TCP: a Benchmark for Temporal Constraint-Based Planning
- arxiv url: http://arxiv.org/abs/2505.19927v1
- Date: Mon, 26 May 2025 12:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.436391
- Title: TCP: a Benchmark for Temporal Constraint-Based Planning
- Title(参考訳): TCP: 時間制約に基づくプランニングのためのベンチマーク
- Authors: Zifeng Ding, Sikuan Yan, Zhangdie Yuan, Xianglong Hu, Fangru Lin, Andreas Vlachos,
- Abstract要約: 時間的推論と計画は、大きな言語モデルにとって不可欠な機能である。
両機能を共同で評価する,時間制約に基づく計画ベンチマークを導入する。
我々は、最先端のLCMを評価し、最強のモデルでさえTCPに苦しむことを発見した。
- 参考スコア(独自算出の注目度): 8.977867314314386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal reasoning and planning are essential capabilities for large language models (LLMs), yet most existing benchmarks evaluate them in isolation and under limited forms of complexity. To address this gap, we introduce the Temporal Constraint-based Planning (TCP) benchmark, that jointly assesses both capabilities. Each instance in TCP features a naturalistic dialogue around a collaborative project, where diverse and interdependent temporal constraints are explicitly or implicitly expressed, and models must infer an optimal schedule that satisfies all constraints. To construct TCP, we first generate abstract problem prototypes that are paired with realistic scenarios from various domains and enriched into dialogues using an LLM. A human quality check is performed on a sampled subset to confirm the reliability of our benchmark. We evaluate state-of-the-art LLMs and find that even the strongest models struggle with TCP, highlighting its difficulty and revealing limitations in LLMs' temporal constraint-based planning abilities. We analyze underlying failure cases, open source our benchmark, and hope our findings can inspire future research.
- Abstract(参考訳): 時間的推論と計画は、大きな言語モデル(LLM)にとって不可欠な機能であるが、既存のベンチマークのほとんどは、それらを独立した形で、限定的な複雑さの下で評価している。
このギャップに対処するため,時間制約に基づくプランニング(TCP)ベンチマークを導入し,両機能を共同で評価する。
TCPの各インスタンスは、多様で相互依存的な時間的制約が明示的にあるいは暗黙的に表現され、モデルはすべての制約を満たす最適なスケジュールを推論する必要がある、協調プロジェクトに関する自然な対話を特徴とする。
TCPを構築するために,我々はまず,様々な領域の現実的なシナリオと組み合わせて,LLMを用いて対話に富んだ抽象的問題プロトタイプを生成する。
ベンチマークの信頼性を確認するため、サンプルサブセットで人体品質チェックを行う。
我々は、最先端のLCMを評価し、最強モデルでさえTCPに苦戦し、その難しさとLLMの時間的制約に基づく計画能力の限界を明らかにする。
基礎となる障害ケースを分析し、ベンチマークをオープンソースにし、私たちの発見が将来の研究を刺激することを期待しています。
関連論文リスト
- Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data [1.2979906794584584]
訓練中に存在しないデータに対する時間的推論タスクにおけるLarge Language Model(LLM)の適用性はまだ検討されていない分野である。
本稿では、構造化および半構造化された匿名化データに焦点をあてて、このトピックについて論じる。
自然言語における17の共通時間的推論タスクを特定し,そのアルゴリズム的構成要素に着目した。
論文 参考訳(メタデータ) (2025-04-10T10:48:42Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions [56.88110850242265]
本稿では,現実の調理シナリオに基づいた新しいベンチマークフレームワークRecipe2Planを紹介する。
従来のベンチマークとは異なり、Recipe2Planは並列タスク実行による調理時間を最適化するためにエージェントに挑戦する。
論文 参考訳(メタデータ) (2025-03-04T03:27:02Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。