Fugu-MT 論文翻訳(概要): ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

論文の概要: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

arxiv url: http://arxiv.org/abs/2406.04046v2
Date: Thu, 17 Oct 2024 22:48:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.322414
Title: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints
Title（参考訳）: ActionReasoningBench: ラミフィケーション制約の有無によるアクションの推論
Authors: Divij Handa, Pavel Dolin, Shrinidhi Kumbhar, Tran Cao Son, Chitta Baral,
Abstract要約: アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
参考スコア（独自算出の注目度）: 31.90180597239974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning about Actions and Change (RAC) has historically played a pivotal role in solving foundational AI problems, such as the frame problem. It has driven advancements in AI fields, such as non-monotonic and commonsense reasoning. RAC remains crucial for AI systems that operate in dynamic environments, engage in interactive scenarios, or rely on commonsense reasoning. Despite substantial advances made by Large Language Models (LLMs) in various AI domains, their performance in RAC remains underexplored. To address this gap, we introduce a new diagnostic benchmark, ActionReasoningBench, which encompasses 8 domains and includes questions for up to 19 action sequences. This benchmark rigorously evaluates LLMs across six key RAC dimensions: Fluent Tracking, State Tracking, Action Executability, Effects of Actions, Numerical RAC, and Composite Questions. LLMs demonstrate average accuracy rates of 73.55%, 65.63%, 58.73%, and 62.38% on the former four dimensions, which are frequently discussed in RAC literature. However, the performance on the latter two dimensions, which introduce complex and novel reasoning questions, the average performance of LLMs is lowered to 33.16% and 51.19%, respectively, reflecting a 17.9% performance decline. We also introduce new ramification constraints to capture the indirect effects of actions, providing deeper insights into RAC challenges. Our evaluation of state-of-the-art LLMs, including both open-source and commercial models, reveals challenges across all RAC dimensions, particularly in handling ramifications, with GPT-4o failing to solve any question and o1-preview achieving a score of only 18.4%.
Abstract（参考訳）: 行動と変化に関する推論(RAC)は、フレーム問題のような基本的なAI問題を解決する上で、歴史的に重要な役割を果たしてきた。非モノトニック推論やコモンセンス推論など、AI分野の進歩を促している。 RACは、動的環境で動作したり、対話的なシナリオに従事したり、常識的推論に依存するAIシステムにとって、依然として不可欠である。様々なAI領域におけるLarge Language Models (LLMs) による大幅な進歩にもかかわらず、RACにおける彼らのパフォーマンスは未調査のままである。このギャップに対処するため、我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを導入しました。このベンチマークは、フルエントトラッキング、ステートトラッキング、アクション実行可能性、アクションの効果、数値RAC、複合質問の6つの主要なRAC次元にわたるLSMを厳格に評価する。 LLMの精度は73.55%、65.63%、58.73%、62.38%で、RACの文献でよく議論されている。しかし、複雑で斬新な推論問題を引き起こす後者の2次元のパフォーマンスは、それぞれ33.16%と51.19%に低下し、17.9%のパフォーマンス低下を反映している。また,行動の間接的な影響を捉え,RACの課題に対する深い洞察を与えるために,新たな分岐制約を導入する。オープンソースモデルと商用モデルの両方を含む最先端のLCMの評価では、RAC次元の課題、特に影響に対処する上で、GPT-4oは問題の解決に失敗し、o1-previewのスコアは18.4%に過ぎなかった。

関連論文リスト

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
The Behavior Gap: Evaluating Zero-shot LLM Agents in Complex Task-Oriented Dialogs [8.581146564012856]
本研究では,AIエージェントと人間専門家の行動ギャップを定量化する包括的評価フレームワークを提案する。以上の結果から,この行動ギャップはLLM剤の性能に悪影響を及ぼす重要な要因であることが明らかとなった。我々の研究で最も複雑な課題は、GPT-4oをベースとしたエージェントでさえ、人間の行動との整合性が低いことである。
論文参考訳（メタデータ） (2025-06-13T22:36:41Z)
Affordance Benchmark for MLLMs [38.62884479364572]
A4Bench**は,MLLMの2次元における空き知覚能力を評価するために設計された,新しいベンチマークである。我々は17のMLLM(9つのプロプライエタリと8つのオープンソース)を評価し、それらを人的パフォーマンスと比較した。結果として、プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、すべてのモデルは人間よりはるかに低いパフォーマンスを示します。
論文参考訳（メタデータ） (2025-06-01T08:26:34Z)
Evaluating the Sensitivity of LLMs to Prior Context [2.377922603550519]
大規模言語モデル(LLM)は、多ターン対話やその他の持続的な対話シナリオにますます多くデプロイされている。我々は,文脈変化に対する感度を測定するために,先行文脈のボリュームと性質を変化させる新しいベンチマークのセットを導入する。その結果,複数質問に対するLLM性能は,多ターンインタラクションにおいて劇的に低下することがわかった。
論文参考訳（メタデータ） (2025-05-29T16:09:32Z)
IRCopilot: Automated Incident Response with Large Language Models [18.2902546324428]
大規模言語モデル(LLM)は早期の脅威検出に大きな可能性を示している。侵入後の自動インシデント応答に関しては、その能力は依然として制限されている。 LLMを用いた自動インシデント応答のための新しいフレームワークIRCopilotを提案する。
論文参考訳（メタデータ） (2025-05-27T09:29:11Z)
Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文参考訳（メタデータ） (2025-04-14T07:14:27Z)
Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration [0.36561146074362716]
大規模言語モデル(LLM)は、複雑な問題に対する深い理解を必要とするタスクに悩まされることが多い。本研究では,現在のLLMの限界について考察する。質問トークンを漸進的に処理し,それらの推論を入力構造と整合させるようにLCMを誘導するプロンプトベースの戦略のファミリーを提案する。
論文参考訳（メタデータ） (2025-04-13T02:10:18Z)
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams [2.897171041611256]
CMExamSetは,全国認定の4つのCM認定試験から689の質問を正解したベンチマークデータセットである。その結果、GPT-4o と Claude 3.7 は、平均精度が82%、Claude 3.7 が83%である。概念的誤解は最も一般的なものであり、拡張されたドメイン固有の推論モデルの必要性を暗示している。
論文参考訳（メタデータ） (2025-04-04T18:13:45Z)
Effectively Controlling Reasoning Models through Thinking Intervention [38.77100471547442]
推論強化された大言語モデルは、最終回答を生成する前に、中間的推論ステップを明示的に生成する。この新たな世代フレームワークは、モデルの振る舞いをよりきめ細かいコントロールするためのユニークな機会を提供します。本稿では,LLMの内部推論プロセスを明示的に導くための新しいパラダイムであるThinking Interventionを提案する。
論文参考訳（メタデータ） (2025-03-31T17:50:13Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models [9.090588805667263]
Sigmoid-Enhanced CUR Decomposition LoRA(セキュラ:シグモイド強化CUR分解ロラ)を提案する。本手法では,パラメータ保持と微調整効率を向上させる新しい正規化手法であるSigmoid-based Magnitude Norm (S-MagNorm)を導入する。
論文参考訳（メタデータ） (2025-02-25T13:00:05Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文参考訳（メタデータ） (2024-05-30T18:07:13Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文参考訳（メタデータ） (2024-01-11T09:49:15Z)
Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文参考訳（メタデータ） (2023-12-02T14:02:52Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
累積推論(CR)は、累積的かつ反復的に言語モデルを利用する新しいアプローチである。いくつかの複雑な推論タスクを通してCRの優位性を実証する。 CRはMATHデータセットに新しい最先端技術を設定する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)
TRAC: A Textual Benchmark for Reasoning about Actions and Change [7.79582487378263]
行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましい。総合的なテキストベンチマークとして4つの本質的なRACタスクを提案し、他の言語的要求の影響を最小限に抑える方法で問題を発生させる。
論文参考訳（メタデータ） (2022-11-25T06:54:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。