論文の概要: Evaluating LLMs' Reasoning Over Ordered Procedural Steps
- arxiv url: http://arxiv.org/abs/2511.04688v1
- Date: Sat, 25 Oct 2025 23:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.977733
- Title: Evaluating LLMs' Reasoning Over Ordered Procedural Steps
- Title(参考訳): 順序付き手続きステップにおけるLLMの推論の評価
- Authors: Adrita Anika, Md Messal Monem Miah,
- Abstract要約: 手順の順序が結果に直接影響を与える手続き的シーケンスに対する推論は、大規模言語モデル(LLM)にとって重要な能力である。
本研究では,食品レシピのキュレートしたデータセットを用いて,シャッフルした手続き段階からグローバルに順序付けられたシーケンスを再構築する作業について検討する。
本稿では、ランク付けとシーケンスアライメントから確立されたメトリクスを適応させる包括的な評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.9261455058620083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning over procedural sequences, where the order of steps directly impacts outcomes, is a critical capability for large language models (LLMs). In this work, we study the task of reconstructing globally ordered sequences from shuffled procedural steps, using a curated dataset of food recipes, a domain where correct sequencing is essential for task success. We evaluate several LLMs under zero-shot and few-shot settings and present a comprehensive evaluation framework that adapts established metrics from ranking and sequence alignment. These include Kendall's Tau, Normalized Longest Common Subsequence (NLCS), and Normalized Edit Distance (NED), which capture complementary aspects of ordering quality. Our analysis shows that model performance declines with increasing sequence length, reflecting the added complexity of longer procedures. We also find that greater step displacement in the input, corresponding to more severe shuffling, leads to further degradation. These findings highlight the limitations of current LLMs in procedural reasoning, especially with longer and more disordered inputs.
- Abstract(参考訳): 手順の順序が結果に直接影響を与える手続き的シーケンスに対する推論は、大きな言語モデル(LLM)にとって重要な能力である。
本研究は, 食品レシピのキュレートされたデータセットを用いて, シャッフルされた手続き段階からグローバルに順序付けられたシーケンスを再構築する作業について検討する。
ゼロショットおよび少数ショット設定下で複数のLCMを評価し,ランク付けとシーケンスアライメントから確立されたメトリクスを適応させる包括的な評価フレームワークを提案する。
その中には、Kendall's Tau, Normalized Longest Common Subsequence (NLCS), Normalized Edit Distance (NED)などがある。
解析の結果,より長い手続きの複雑さを反映して,シーケンス長の増大に伴ってモデル性能が低下することが示された。
また,入力の段差が大きいほど,シャッフルが激しくなり,さらに劣化することがわかった。
これらの知見は、手続き的推論における現在のLSMの限界、特に、より長く、より混乱した入力において顕著である。
関連論文リスト
- Solving a Million-Step LLM Task with Zero Errors [13.911986576836568]
本稿では,100万 LLM ステップ以上のタスクをゼロエラーで解決した最初のシステムである MAKER について述べる。
その結果,現在のLLMの継続的な改善に頼るのではなく,大規模分解型エージェントプロセス(MDAP)は,組織や社会のレベルでの問題を効率的に解決する手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-12T06:27:55Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - STEPS: A Benchmark for Order Reasoning in Sequential Tasks [16.52934509949172]
データ構築とタスクの定式化について述べ、重要な大規模言語モデル(LLM)のほとんどをベンチマークする。
1)シーケンシャルタスクにおける行動順序の常識的推論は,ゼロショットプロンプトや少数ショットインコンテキスト学習によって解決することが困難である。
論文 参考訳(メタデータ) (2023-06-07T13:58:55Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。