論文の概要: Parameterized Argumentation-based Reasoning Tasks for Benchmarking Generative Language Models
- arxiv url: http://arxiv.org/abs/2505.01539v1
- Date: Fri, 02 May 2025 19:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.168831
- Title: Parameterized Argumentation-based Reasoning Tasks for Benchmarking Generative Language Models
- Title(参考訳): 生成言語モデルのベンチマークのためのパラメータ化引数に基づく推論タスク
- Authors: Cor Steging, Silja Renooij, Bart Verheij,
- Abstract要約: 法域におけるツールとしての生成可能な大規模言語モデルは、司法システムを改善する可能性がある。
しかし、現在の生成モデルの推論行動は脆く理解が不十分であるため、法と証拠の領域に責任を負うことはできない。
生成言語モデルの推論能力を評価するために,ベンチマークを作成するためのアプローチを導入する。
- 参考スコア(独自算出の注目度): 1.249418440326334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative large language models as tools in the legal domain have the potential to improve the justice system. However, the reasoning behavior of current generative models is brittle and poorly understood, hence cannot be responsibly applied in the domains of law and evidence. In this paper, we introduce an approach for creating benchmarks that can be used to evaluate the reasoning capabilities of generative language models. These benchmarks are dynamically varied, scalable in their complexity, and have formally unambiguous interpretations. In this study, we illustrate the approach on the basis of witness testimony, focusing on the underlying argument attack structure. We dynamically generate both linear and non-linear argument attack graphs of varying complexity and translate these into reasoning puzzles about witness testimony expressed in natural language. We show that state-of-the-art large language models often fail in these reasoning puzzles, already at low complexity. Obvious mistakes are made by the models, and their inconsistent performance indicates that their reasoning capabilities are brittle. Furthermore, at higher complexity, even state-of-the-art models specifically presented for reasoning capabilities make mistakes. We show the viability of using a parametrized benchmark with varying complexity to evaluate the reasoning capabilities of generative language models. As such, the findings contribute to a better understanding of the limitations of the reasoning capabilities of generative models, which is essential when designing responsible AI systems in the legal domain.
- Abstract(参考訳): 法域におけるツールとしての生成可能な大規模言語モデルは、司法システムを改善する可能性がある。
しかし、現在の生成モデルの推論行動は脆く理解が不十分であるため、法と証拠の領域に責任を負うことはできない。
本稿では,生成言語モデルの推論能力を評価するために,ベンチマークを作成するためのアプローチを提案する。
これらのベンチマークは動的に変化し、その複雑さにおいてスケーラブルであり、正式には曖昧な解釈を持つ。
本研究では,証人証言に基づくアプローチについて,その基盤となる議論攻撃構造に着目して説明する。
複雑度の異なる線形および非線形の引数攻撃グラフを動的に生成し、これらを自然言語で表現された証人証言に関する推論パズルに変換する。
最先端の大規模言語モデルは、しばしばこれらの推論パズルで失敗するが、既に複雑さは低い。
明らかなミスはモデルによって行われ、その一貫性のないパフォーマンスは、彼らの推論能力が脆弱であることを示している。
さらに、より複雑な場合には、推論能力に特化して提示される最先端のモデルでさえ間違いを犯す。
生成言語モデルの推論能力を評価するために,様々な複雑さを持つパラメータ化されたベンチマークを用いることの有効性を示す。
このようにして、これらの発見は、法域内で責任あるAIシステムを設計する際に不可欠である、生成モデルの推論能力の限界をよりよく理解するのに役立つ。
関連論文リスト
- Implicit Reasoning in Transformers is Reasoning through Shortcuts [10.351525484558376]
テストタイム計算は、言語モデルの複雑な多段階推論機能を強化するための新しいパラダイムとして登場しつつある。
マルチステップタスクにおいて,言語モデルがどのように暗黙的推論を行うかを検討する。
論文 参考訳(メタデータ) (2025-03-10T17:58:31Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Case-Based Reasoning with Language Models for Classification of Logical
Fallacies [3.511369967593153]
本稿では,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。
本実験は,ケースベース推論が言語モデルの精度と一般化性を向上させることを示唆している。
論文 参考訳(メタデータ) (2023-01-27T17:49:16Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。