論文の概要: CaT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans
- arxiv url: http://arxiv.org/abs/2406.15823v1
- Date: Sat, 22 Jun 2024 11:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:25:27.729020
- Title: CaT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans
- Title(参考訳): CaT-BENCH:計画における因果依存性と時間依存性のベンチマーク言語モデル
- Authors: Yash Kumar Lal, Vanya Cohen, Nathanael Chambers, Niranjan Balasubramanian, Raymond Mooney,
- Abstract要約: 本稿では,調理レシピ計画において,ステップの前後にステップが必ず発生する必要があるかどうかを検証した,ステップ順序予測のベンチマークであるCaT-Benchを紹介する。
我々はSOTA LLMが圧倒されていること(最もゼロショットはF1でわずか0.59)、より頻繁に依存を予測することに偏っていることを発見した。
人間による説明の評価と回答の正しさは、平均して人間はモデル推論と一致しないことを示している。
- 参考スコア(独自算出の注目度): 17.60638914919888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the abilities of LLMs to reason about natural language plans, such as instructional text and recipes, is critical to reliably using them in decision-making systems. A fundamental aspect of plans is the temporal order in which their steps needs to be executed, which reflects the underlying causal dependencies between them. We introduce CaT-Bench, a benchmark of Step Order Prediction questions, which test whether a step must necessarily occur before or after another in cooking recipe plans. We use this to evaluate how well frontier LLMs understand causal and temporal dependencies. We find that SOTA LLMs are underwhelming (best zero-shot is only 0.59 in F1), and are biased towards predicting dependence more often, perhaps relying on temporal order of steps as a heuristic. While prompting for explanations and using few-shot examples improve performance, the best F1 result is only 0.73. Further, human evaluation of explanations along with answer correctness show that, on average, humans do not agree with model reasoning. Surprisingly, we also find that explaining after answering leads to better performance than normal chain-of-thought prompting, and LLM answers are not consistent across questions about the same step pairs. Overall, results show that LLMs' ability to detect dependence between steps has significant room for improvement.
- Abstract(参考訳): 指導文やレシピなどの自然言語プランを推論するLLMの能力を理解することは、意思決定システムにおいてそれらを確実に活用することが重要である。
計画の基本的な側面は、ステップの実行が必要な時間的順序であり、それら間の因果依存性を反映している。
本稿では,調理レシピ計画において,ステップの前後にステップが必ず発生する必要があるかどうかを検証した,ステップ順序予測のベンチマークであるCaT-Benchを紹介する。
我々は、この手法を用いて、フロンティアのLLMが因果関係と時間的依存をいかによく理解しているかを評価する。
我々はSOTA LLMが圧倒されていること(最もゼロショットはF1でわずか0.59)、そしてより頻繁に依存を予測することに偏りがあり、おそらくヒューリスティックなステップの時間的順序に依存している。
説明のプロンプトと少数ショット例の使用によりパフォーマンスが向上する一方で、最高のF1結果は0.73である。
さらに,人間による説明の評価と回答の正しさは,平均的にモデル推論と一致しないことを示している。
驚いたことに、回答後の説明は通常のチェーン・オブ・シークレット・プロンプトよりも優れたパフォーマンスをもたらし、LCMの回答は、同じステップペアに関する質問間で一貫性がないこともわかりました。
その結果,LSMがステップ間の依存性を検出する能力は改善の余地があることが示唆された。
関連論文リスト
- Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。
最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文 参考訳(メタデータ) (2024-10-14T13:10:45Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。