Fugu-MT 論文翻訳(概要): Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey

論文の概要: Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey

arxiv url: http://arxiv.org/abs/2404.01869v1
Date: Tue, 2 Apr 2024 11:46:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 16:38:36.506798
Title: Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey
Title（参考訳）: 正確性を超えて:大規模言語モデルの推論行動を評価する -- 調査
Authors: Philipp Mondorf, Barbara Plank,
Abstract要約: 大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
参考スコア（独自算出の注目度）: 25.732397636695882
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) have recently shown impressive performance on tasks involving reasoning, leading to a lively debate on whether these models possess reasoning capabilities similar to humans. However, despite these successes, the depth of LLMs' reasoning abilities remains uncertain. This uncertainty partly stems from the predominant focus on task performance, measured through shallow accuracy metrics, rather than a thorough investigation of the models' reasoning behavior. This paper seeks to address this gap by providing a comprehensive review of studies that go beyond task accuracy, offering deeper insights into the models' reasoning processes. Furthermore, we survey prevalent methodologies to evaluate the reasoning behavior of LLMs, emphasizing current trends and efforts towards more nuanced reasoning analyses. Our review suggests that LLMs tend to rely on surface-level patterns and correlations in their training data, rather than on genuine reasoning abilities. Additionally, we identify the need for further research that delineates the key differences between human and LLM-based reasoning. Through this survey, we aim to shed light on the complex reasoning processes within LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、推論を含むタスクにおいて印象的なパフォーマンスを示しており、これらのモデルが人間に似た推論能力を持っているかどうかを活発に議論している。しかし、これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。この不確実性の一部は、モデルの推論動作を徹底的に調査するのではなく、浅い精度のメトリクスを通して測定されるタスクパフォーマンスに主に焦点をあてることに由来する。本稿では,タスクの精度を超える研究を包括的にレビューし,モデルの推論プロセスに関する深い洞察を提供することにより,このギャップに対処することを目的とする。さらに, LLMの推論行動を評価するための一般的な手法を調査し, 現状を強調し, よりニュアンスな推論分析への取り組みについて検討した。我々のレビューでは、LCMは真の推論能力よりも、トレーニングデータの表面レベルのパターンや相関に頼っている傾向が示唆されている。さらに、人間とLLMに基づく推論の主な相違点を示すさらなる研究の必要性も確認する。本調査では,LSMの複雑な推論プロセスについて光を当てることを目的としている。

関連論文リスト

Reasoning Promotes Robustness in Theory of Mind Tasks [0.26945563448932225]
大規模言語モデル(LLM)は、最近、Theory of Mind(ToM)テストで強いパフォーマンスを示している。本稿では,機械心理学実験の新たな適応法と確立されたベンチマークの結果を用いて,ToMタスクにおけるそのような推論モデルの挙動について検討する。
論文参考訳（メタデータ） (2026-01-23T16:01:24Z)
How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。推論を原子核スキルに分解する新しいベンチマークを導入する。 SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文参考訳（メタデータ） (2025-12-30T08:16:20Z)
A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文参考訳（メタデータ） (2025-04-02T23:51:27Z)
A Survey on Enhancing Causal Reasoning Ability of Large Language Models [15.602788561902038]
大規模言語モデル(LLM)は、最近、言語タスク以降で顕著なパフォーマンスを示している。 LLMは、医療や経済分析などの堅牢な因果推論能力を必要とするタスクを扱う上で、依然として課題に直面している。本稿では,LLMの因果推論能力の強化に関する文献を体系的にレビューする。
論文参考訳（メタデータ） (2025-03-12T12:20:31Z)
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文参考訳（メタデータ） (2025-01-16T17:37:58Z)
Improving Causal Reasoning in Large Language Models: A Survey [16.55801836321059]
因果推論は知性の重要な側面であり、問題解決、意思決定、世界理解に不可欠である。大規模言語モデル(LLM)は出力に対して有理性を生成することができるが、因果推論を確実に行う能力は未だ不明である。
論文参考訳（メタデータ） (2024-10-22T04:18:19Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-17T08:59:04Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文参考訳（メタデータ） (2024-02-20T12:58:14Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Towards Reasoning in Large Language Models: A Survey [11.35055307348939]
大規模な言語モデル(LLM)がどの程度推論できるのかは、まだ明らかになっていない。本稿では,LLMにおける推論に関する知識の現状を概観する。
論文参考訳（メタデータ） (2022-12-20T16:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。