論文の概要: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints
- arxiv url: http://arxiv.org/abs/2406.04046v2
- Date: Thu, 17 Oct 2024 22:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:13.622596
- Title: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints
- Title(参考訳): ActionReasoningBench: ラミフィケーション制約の有無によるアクションの推論
- Authors: Divij Handa, Pavel Dolin, Shrinidhi Kumbhar, Tran Cao Son, Chitta Baral,
- Abstract要約: アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。
我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。
このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
- 参考スコア(独自算出の注目度): 31.90180597239974
- License:
- Abstract: Reasoning about Actions and Change (RAC) has historically played a pivotal role in solving foundational AI problems, such as the frame problem. It has driven advancements in AI fields, such as non-monotonic and commonsense reasoning. RAC remains crucial for AI systems that operate in dynamic environments, engage in interactive scenarios, or rely on commonsense reasoning. Despite substantial advances made by Large Language Models (LLMs) in various AI domains, their performance in RAC remains underexplored. To address this gap, we introduce a new diagnostic benchmark, ActionReasoningBench, which encompasses 8 domains and includes questions for up to 19 action sequences. This benchmark rigorously evaluates LLMs across six key RAC dimensions: Fluent Tracking, State Tracking, Action Executability, Effects of Actions, Numerical RAC, and Composite Questions. LLMs demonstrate average accuracy rates of 73.55%, 65.63%, 58.73%, and 62.38% on the former four dimensions, which are frequently discussed in RAC literature. However, the performance on the latter two dimensions, which introduce complex and novel reasoning questions, the average performance of LLMs is lowered to 33.16% and 51.19%, respectively, reflecting a 17.9% performance decline. We also introduce new ramification constraints to capture the indirect effects of actions, providing deeper insights into RAC challenges. Our evaluation of state-of-the-art LLMs, including both open-source and commercial models, reveals challenges across all RAC dimensions, particularly in handling ramifications, with GPT-4o failing to solve any question and o1-preview achieving a score of only 18.4%.
- Abstract(参考訳): 行動と変化に関する推論(RAC)は、フレーム問題のような基本的なAI問題を解決する上で、歴史的に重要な役割を果たしてきた。
非モノトニック推論やコモンセンス推論など、AI分野の進歩を促している。
RACは、動的環境で動作したり、対話的なシナリオに従事したり、常識的推論に依存するAIシステムにとって、依然として不可欠である。
様々なAI領域におけるLarge Language Models (LLMs) による大幅な進歩にもかかわらず、RACにおける彼らのパフォーマンスは未調査のままである。
このギャップに対処するため、我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを導入しました。
このベンチマークは、フルエントトラッキング、ステートトラッキング、アクション実行可能性、アクションの効果、数値RAC、複合質問の6つの主要なRAC次元にわたるLSMを厳格に評価する。
LLMの精度は73.55%、65.63%、58.73%、62.38%で、RACの文献でよく議論されている。
しかし、複雑で斬新な推論問題を引き起こす後者の2次元のパフォーマンスは、それぞれ33.16%と51.19%に低下し、17.9%のパフォーマンス低下を反映している。
また,行動の間接的な影響を捉え,RACの課題に対する深い洞察を与えるために,新たな分岐制約を導入する。
オープンソースモデルと商用モデルの両方を含む最先端のLCMの評価では、RAC次元の課題、特に影響に対処する上で、GPT-4oは問題の解決に失敗し、o1-previewのスコアは18.4%に過ぎなかった。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - A Strategy for Implementing description Temporal Dynamic Algorithms in
Dynamic Knowledge Graphs by SPIN [6.176867277585226]
本研究では,記述論理(DL)の拡張,時間的形式主義,行動形式主義などの関連する論理構造について検討した。
アクションの表現と推論のために、私たちはアクションをDL(Dynamic-ALCとその拡張など)に埋め込んだ。
本稿では,アクションプロジェクション,計画,満足度,一貫性,実現可能性,実行性をチェックするための用語可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:43:48Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - TRAC: A Textual Benchmark for Reasoning about Actions and Change [7.79582487378263]
行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。
近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましい。
総合的なテキストベンチマークとして4つの本質的なRACタスクを提案し、他の言語的要求の影響を最小限に抑える方法で問題を発生させる。
論文 参考訳(メタデータ) (2022-11-25T06:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。