論文の概要: MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2406.02106v1
- Date: Tue, 4 Jun 2024 08:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:11:25.890100
- Title: MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset
- Title(参考訳): MARS:マルチタスク評価データセットを用いた言語モデルのメタ物理推論能力のベンチマーク
- Authors: Weiqi Wang, Yangqiu Song,
- Abstract要約: 大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
- 参考スコア(独自算出の注目度): 50.36095192314595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable Large Language Models (LLMs) to function as conscious agents with generalizable reasoning capabilities, it is crucial that they possess the reasoning ability to comprehend situational changes (transitions) in distribution triggered by environmental factors or actions from other agents. Despite its fundamental significance, this ability remains underexplored due to the complexity of modeling infinite possible changes in an event and their associated distributions, coupled with the lack of benchmark data with situational transitions. Addressing these gaps, we propose a novel formulation of reasoning with distributional changes as a three-step discriminative process, termed as MetAphysical ReaSoning. We then introduce the first-ever benchmark, MARS, comprising three tasks corresponding to each step. These tasks systematically assess LLMs' capabilities in reasoning the plausibility of (i) changes in actions, (ii) states caused by changed actions, and (iii) situational transitions driven by changes in action. Extensive evaluations with 20 (L)LMs of varying sizes and methods indicate that all three tasks in this process pose significant challenges, even for state-of-the-art LLMs and LMs after fine-tuning. Further analyses reveal potential causes for the underperformance of LLMs and demonstrate that pre-training them on large-scale conceptualization taxonomies can potentially enhance their metaphysical reasoning capabilities. Our data and models are publicly accessible at https://github.com/HKUST-KnowComp/MARS.
- Abstract(参考訳): 大規模言語モデル(LLM)が一般化可能な推論能力を持つ意識的エージェントとして機能するためには、環境要因や他のエージェントからのアクションによって引き起こされる分布における状況変化(遷移)を理解するための推論能力を持つことが重要である。
その基本的な重要性にもかかわらず、この能力は、イベントにおける無限の可能性のある変更とその関連する分布をモデル化する複雑さと、状況遷移を伴うベンチマークデータの欠如により、まだ探索されていない。
これらのギャップに対処するために、分布変化を伴う推論を3段階の識別過程として、MetAphysical ReaSoning と呼ばれる新しい定式化を提案する。
次に、各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
これらの課題はLLMの妥当性を判断する能力について体系的に評価する。
(i)行動の変化
二 変化した行為によって引き起こされる状態、及び
三 行動の変化による状況変化
20 (L)LMの様々なサイズと手法による広範囲な評価は、このプロセスにおける3つのタスクがすべて、微調整後の最先端のLLMやLMにおいても大きな課題を生んでいることを示している。
さらなる分析により、LLMの過小評価の潜在的な原因を明らかにし、それらを大規模概念化分類学で事前訓練することで、その代謝学的推論能力が向上する可能性が示された。
我々のデータとモデルはhttps://github.com/HKUST-KnowComp/MARS.comで公開されています。
関連論文リスト
- Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Deliberate Reasoning for LLMs as Structure-aware Planning with Accurate World Model [14.480267340831542]
大規模言語モデル(LLM)のためのSWAP(Structure-Aware Planning)を提案する。
SWAPは、世界モデルによる推論プロセスのガイドとして構造情報を導入し、ステップ上のソフト検証メカニズムを提供する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models [27.955342181784797]
現在、MLLMの対向移動可能性の脅威に関する体系的な研究は行われていない。
本稿では, MLLM間での対向転写性能を評価するため, TATM (Typography Augment Transferability Method) と呼ばれるブースティング手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T14:27:20Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。