論文の概要: AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2508.19988v1
- Date: Wed, 27 Aug 2025 15:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.688468
- Title: AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios
- Title(参考訳): AgentCoMa: 実世界のシナリオにおけるコモンセンスと数学的推論を組み合わせたコンポジションベンチマーク
- Authors: Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek Rei,
- Abstract要約: Agentic Commonsense and Mathベンチマーク(AgentCoMa)を紹介する。
各構成タスクには、常識的推論ステップと数学的推論ステップが必要である。
LLMは通常、両方のステップを分離して解くことができるが、2つのステップを組み合わせると、その精度は平均30%低下する。
- 参考スコア(独自算出の注目度): 21.065210731722246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved high accuracy on complex commonsense and mathematical problems that involve the composition of multiple reasoning steps. However, current compositional benchmarks testing these skills tend to focus on either commonsense or math reasoning, whereas LLM agents solving real-world tasks would require a combination of both. In this work, we introduce an Agentic Commonsense and Math benchmark (AgentCoMa), where each compositional task requires a commonsense reasoning step and a math reasoning step. We test it on 61 LLMs of different sizes, model families, and training strategies. We find that LLMs can usually solve both steps in isolation, yet their accuracy drops by ~30% on average when the two are combined. This is a substantially greater performance gap than the one we observe in prior compositional benchmarks that combine multiple steps of the same reasoning type. In contrast, non-expert human annotators can solve the compositional questions and the individual steps in AgentCoMa with similarly high accuracy. Furthermore, we conduct a series of interpretability studies to better understand the performance gap, examining neuron patterns, attention maps and membership inference. Our work underscores a substantial degree of model brittleness in the context of mixed-type compositional reasoning and offers a test bed for future improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の推論ステップの構成を含む複雑なコモンセンスと数学的問題に対して高い精度を達成している。
しかしながら、これらのスキルをテストする現在の構成ベンチマークでは、コモンセンスと数学の推論の両方に焦点を当てる傾向にある。
本研究では,AgentCoMa (AgentCoMa) というエージェント・コモンセンスと数学のベンチマークを導入し,各コンポジションタスクにはコモンセンスの推論ステップと数学の推論ステップが必要となる。
異なるサイズの61 LLM、モデルファミリー、トレーニング戦略でテストします。
LLMは通常、両方のステップを分離して解くことができるが、2つのステップを組み合わせると、その精度は平均で30%低下する。
これは、同じ推論型の複数のステップを組み合わせた以前のコンポジションベンチマークで観察したものよりも、はるかに大きなパフォーマンスギャップです。
対照的に、非専門家のアノテータは、AgenCoMaにおける構成上の問題と個々のステップを、同様に高い精度で解決することができる。
さらに、我々は、パフォーマンスギャップをよりよく理解し、ニューロンパターン、注意マップ、およびメンバーシップ推論を調べるために、一連の解釈可能性研究を実施している。
本研究は,混合型構成推論の文脈におけるモデル脆度を著しく評価し,今後の改善のためのテストベッドを提供する。
関連論文リスト
- Mathematical Computation and Reasoning Errors by Large Language Models [3.0309252269809264]
大規模言語モデル(LLM)は、AIによる教育指導と評価にますます活用されている。
本研究は,算術,代数学,数論を含む3分野の数学課題を解く4つの LLM の精度を評価することに焦点を当てる。
推理強化された OpenAI o1 モデルが3つの数学タスクのカテゴリで常に高い精度またはほぼ完璧な精度を達成したことが観察された。
論文 参考訳(メタデータ) (2025-08-13T16:33:02Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - LoRA Soups: Merging LoRAs for Practical Skill Composition Tasks [73.09643674975591]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)のパラメータ効率の高い微調整手法である。
異なるLoRAモジュールをマージして,スキルコンポジションを実現する方法について検討する。
論文 参考訳(メタデータ) (2024-10-16T20:33:06Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。