Fugu-MT 論文翻訳(概要): A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners

論文の概要: A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners

arxiv url: http://arxiv.org/abs/2406.11050v2
Date: Fri, 04 Oct 2024 04:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:52:31.381045
Title: A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners
Title（参考訳）: Token Bias:大型の言語モデルは、まだジェネリックな推論器ではない
Authors: Bowen Jiang, Yangxinyu Xie, Zhuoqun Hao, Xiaomeng Wang, Tanwi Mallick, Weijie J. Su, Camillo J. Taylor, Dan Roth,
Abstract要約: 本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
参考スコア（独自算出の注目度）: 58.15511660018742
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study introduces a hypothesis-testing framework to assess whether large language models (LLMs) possess genuine reasoning abilities or primarily depend on token bias. We go beyond evaluating LLMs on accuracy; rather, we aim to investigate their token bias in solving logical reasoning tasks. Specifically, we develop carefully controlled synthetic datasets, featuring conjunction fallacy and syllogistic problems. Our framework outlines a list of hypotheses where token biases are readily identifiable, with all null hypotheses assuming genuine reasoning capabilities of LLMs. The findings in this study suggest, with statistical guarantee, that most LLMs still struggle with logical reasoning. While they may perform well on classic problems, their success largely depends on recognizing superficial patterns with strong token bias, thereby raising concerns about their actual reasoning and generalization abilities. Codes and data are open-sourced at https://github.com/bowen-upenn/llm_token_bias.
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)が真の推論能力を持っているか,あるいは主にトークンバイアスに依存しているかを評価するための仮説検証フレームワークを提案する。我々は、LLMを精度で評価するだけでなく、論理的推論タスクの解法におけるトークンバイアスの調査も目指している。具体的には,相補的誤りとシロメトリクス的問題を特徴とする,注意深く制御された合成データセットを開発する。我々のフレームワークは、トークンバイアスが容易に識別できる仮説のリストを概説しており、全てのヌル仮説はLLMの真の推論能力を想定している。この研究の結果は、統計学的保証により、ほとんどのLLMが論理的推論に苦戦していることを示唆している。古典的な問題ではうまく機能するかもしれないが、その成功は表面的なパターンを強いトークンバイアスで認識することに大きく依存しており、それによって実際の推論や一般化能力に対する懸念が高まる。コードとデータはhttps://github.com/bowen-upenn/llm_token_bias.comで公開されている。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
BiasCause: Evaluate Socially Biased Causal Reasoning of Large Language Models [8.368810576899556]
大規模言語モデル(LLM)は、特定のセンシティブなグループに対する社会的バイアスを含むコンテンツを生成する。本稿では, LLMの因果推論過程を評価するために, 社会的偏見を提起する質問に回答する。
論文参考訳（メタデータ） (2025-04-08T20:00:14Z)
Evaluating Social Biases in LLM Reasoning [19.824838766883534]
本稿では,DeepSeek-R1 の 8B と 32B の変種を,BBQ データセット上の命令調整版と比較した。我々の知る限りでは、この実証的研究は、LLM推論におけるバイアス問題を初めて評価するものである。
論文参考訳（メタデータ） (2025-02-21T10:16:07Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
CBEval: A framework for evaluating and interpreting cognitive biases in LLMs [1.4633779950109127]
大きな言語モデルは、認知過程において顕著なギャップを示す。人間の生成したデータのリフレクションとして、これらのモデルは認知バイアスを継承する可能性がある。
論文参考訳（メタデータ） (2024-12-04T05:53:28Z)
Rulebreakers Challenge: Revealing a Blind Spot in Large Language Models' Reasoning with Formal Logic [3.0648414540406703]
本研究では,論理的含意が現実的に許容できる推論から分岐する事例を指す「ルールブレーカー(rulebreaker)」の概念を紹介する。 RULEBREAKERSは,ルールブレーカーと非ルールブレーカーを区別する大規模言語モデルの能力を評価するための新しいデータセットである。
論文参考訳（メタデータ） (2024-10-21T20:48:16Z)
Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文参考訳（メタデータ） (2024-10-19T09:38:55Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。