論文の概要: A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners
- arxiv url: http://arxiv.org/abs/2406.11050v2
- Date: Fri, 04 Oct 2024 04:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:12.164116
- Title: A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners
- Title(参考訳): Token Bias:大型の言語モデルは、まだジェネリックな推論器ではない
- Authors: Bowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie J. Su, Camillo J. Taylor, Dan Roth,
- Abstract要約: 本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
- 参考スコア(独自算出の注目度): 58.15511660018742
- License:
- Abstract: This study introduces a hypothesis-testing framework to assess whether large language models (LLMs) possess genuine reasoning abilities or primarily depend on token bias. We go beyond evaluating LLMs on accuracy; rather, we aim to investigate their token bias in solving logical reasoning tasks. Specifically, we develop carefully controlled synthetic datasets, featuring conjunction fallacy and syllogistic problems. Our framework outlines a list of hypotheses where token biases are readily identifiable, with all null hypotheses assuming genuine reasoning capabilities of LLMs. The findings in this study suggest, with statistical guarantee, that most LLMs still struggle with logical reasoning. While they may perform well on classic problems, their success largely depends on recognizing superficial patterns with strong token bias, thereby raising concerns about their actual reasoning and generalization abilities. Codes and data are open-sourced at https://github.com/bowen-upenn/llm_token_bias.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)が真の推論能力を持っているか,あるいは主にトークンバイアスに依存しているかを評価するための仮説検証フレームワークを提案する。
我々は、LLMを精度で評価するだけでなく、論理的推論タスクの解法におけるトークンバイアスの調査も目指している。
具体的には,相補的誤りとシロメトリクス的問題を特徴とする,注意深く制御された合成データセットを開発する。
我々のフレームワークは、トークンバイアスが容易に識別できる仮説のリストを概説しており、全てのヌル仮説はLLMの真の推論能力を想定している。
この研究の結果は、統計学的保証により、ほとんどのLLMが論理的推論に苦戦していることを示唆している。
古典的な問題ではうまく機能するかもしれないが、その成功は表面的なパターンを強いトークンバイアスで認識することに大きく依存しており、それによって実際の推論や一般化能力に対する懸念が高まる。
コードとデータはhttps://github.com/bowen-upenn/llm_token_bias.comで公開されている。
関連論文リスト
- Rulebreakers Challenge: Revealing a Blind Spot in Large Language Models' Reasoning with Formal Logic [3.0648414540406703]
本研究では,論理的含意が現実的に許容できる推論から分岐する事例を指す「ルールブレーカー(rulebreaker)」の概念を紹介する。
RULEBREAKERSは,ルールブレーカーと非ルールブレーカーを区別する大規模言語モデルの能力を評価するための新しいデータセットである。
論文 参考訳(メタデータ) (2024-10-21T20:48:16Z) - Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文 参考訳(メタデータ) (2024-10-19T09:38:55Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。