論文の概要: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints
- arxiv url: http://arxiv.org/abs/2406.04046v1
- Date: Thu, 6 Jun 2024 13:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:49:58.829341
- Title: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints
- Title(参考訳): ActionReasoningBench: ラミフィケーション制約の有無によるアクションの推論
- Authors: Divij Handa, Pavel Dolin, Shrinidhi Kumbhar, Chitta Baral, Tran Cao Son,
- Abstract要約: 行動と変化(RAC)に関する推論は、歴史的に多くの初期のAI課題の開発を促してきた。
我々は13のドメインを含む新しいベンチマークであるActionReasoningBenchを導入し、LLM(Large Language Models)を厳格に評価する。
この結果は,これらのモデルがベンチマークに含まれるすべてのカテゴリで重大な課題に直面していることを示唆している。
- 参考スコア(独自算出の注目度): 31.90180597239974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about actions and change (RAC) has historically driven the development of many early AI challenges, such as the frame problem, and many AI disciplines, including non-monotonic and commonsense reasoning. The role of RAC remains important even now, particularly for tasks involving dynamic environments, interactive scenarios, and commonsense reasoning. Despite the progress of Large Language Models (LLMs) in various AI domains, their performance on RAC is underexplored. To address this gap, we introduce a new benchmark, ActionReasoningBench, encompassing 13 domains and rigorously evaluating LLMs across eight different areas of RAC. These include - Object Tracking, Fluent Tracking, State Tracking, Action Executability, Effects of Actions, Numerical RAC, Hallucination Detection, and Composite Questions. Furthermore, we also investigate the indirect effect of actions due to ramification constraints for every domain. Finally, we evaluate our benchmark using open-sourced and commercial state-of-the-art LLMs, including GPT-4o, Gemini-1.0-Pro, Llama2-7b-chat, Llama2-13b-chat, Llama3-8b-instruct, Gemma-2b-instruct, and Gemma-7b-instruct. Our findings indicate that these models face significant challenges across all categories included in our benchmark.
- Abstract(参考訳): 行動と変化(RAC)に関する推論は、歴史的にフレーム問題や非モノトニック推論やコモンセンス推論など、多くのAI分野など、多くの初期のAI課題の開発を推進してきた。
RACの役割は今でも重要であり、特に動的環境、インタラクティブシナリオ、コモンセンス推論といったタスクにおいて重要である。
さまざまなAIドメインにおけるLarge Language Models(LLM)の進歩にもかかわらず、RACのパフォーマンスは過小評価されている。
このギャップに対処するために、13のドメインを含む新しいベンチマークであるActionReasoningBenchを導入し、RACの8つの異なる領域にわたるLSMを厳格に評価する。
対象追跡、フルエントトラッキング、状態追跡、アクション実行性、アクションの効果、数値RAC、幻覚検出、複合質問などである。
さらに,各領域の分岐制約による行動の間接的影響についても検討する。
最後に, GPT-4o, Gemini-1.0-Pro, Llama2-7b-chat, Llama2-13b-chat, Llama3-8b-instruct, Gemma-2b-instruct, Gemma-7b-instructなどのオープンソースおよび商用LLMを用いて評価を行った。
この結果は,これらのモデルがベンチマークに含まれるすべてのカテゴリで重大な課題に直面していることを示唆している。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Cumulative Reasoning with Large Language Models [12.267474250936123]
累積推論(CR)は、累積的かつ反復的に言語モデルを利用する新しいアプローチである。
いくつかの複雑な推論タスクを通してCRの優位性を実証する。
CRはMATHデータセットに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-08-08T16:18:20Z) - TRAC: A Textual Benchmark for Reasoning about Actions and Change [7.79582487378263]
行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。
近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましい。
総合的なテキストベンチマークとして4つの本質的なRACタスクを提案し、他の言語的要求の影響を最小限に抑える方法で問題を発生させる。
論文 参考訳(メタデータ) (2022-11-25T06:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。