論文の概要: Large Language Models are biased to overestimate profoundness
- arxiv url: http://arxiv.org/abs/2310.14422v1
- Date: Sun, 22 Oct 2023 21:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:49:43.667683
- Title: Large Language Models are biased to overestimate profoundness
- Title(参考訳): 大規模言語モデルは過大評価される
- Authors: Eugenio Herrera-Berg, Tom\'as Vergara Browne, Pablo Le\'on-Villagr\'a,
Marc-Llu\'is Vives, Cristian Buc Calderon
- Abstract要約: 本研究は, GPT-4 およびその他の様々な大規模言語モデル (LLM) を用いて, 日常的, 動機的, 疑似発声文の深度を判定する。
その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 有意なステートメントとステートメントの相関関係が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in natural language processing by large language models
(LLMs), such as GPT-4, have been suggested to approach Artificial General
Intelligence. And yet, it is still under dispute whether LLMs possess similar
reasoning abilities to humans. This study evaluates GPT-4 and various other
LLMs in judging the profoundness of mundane, motivational, and pseudo-profound
statements. We found a significant statement-to-statement correlation between
the LLMs and humans, irrespective of the type of statements and the prompting
technique used. However, LLMs systematically overestimate the profoundness of
nonsensical statements, with the exception of Tk-instruct, which uniquely
underestimates the profoundness of statements. Only few-shot learning prompts,
as opposed to chain-of-thought prompting, draw LLMs ratings closer to humans.
Furthermore, this work provides insights into the potential biases induced by
Reinforcement Learning from Human Feedback (RLHF), inducing an increase in the
bias to overestimate the profoundness of statements.
- Abstract(参考訳): GPT-4のような大規模言語モデル(LLM)による自然言語処理の最近の進歩は、人工知能にアプローチすることを示唆している。
しかし、LLMが人間に類似した推論能力を持っているかどうかはまだ議論が続いている。
本研究は,gpt-4 と他の様々な llm を評価し,ムンタン,モチベーション,疑似生成文の深みを判断する。
その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 文間の有意な相関関係が認められた。
しかし、LLM は Tk-インストラクトを除いて、非感覚的ステートメントの深度を体系的に過大評価する。
数発の学習のプロンプトは、チェーン・オブ・シークレットのプロンプトとは対照的に、LLMの格付けを人間に近づける。
さらに、この研究は、人間のフィードバック(rlhf)からの強化学習によって引き起こされる潜在的なバイアスに対する洞察を与え、文の深みを過大評価するバイアスの増加を誘発する。
関連論文リスト
- Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。
近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。
本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文 参考訳(メタデータ) (2024-10-20T07:22:23Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Psychometric Predictive Power of Large Language Models [32.31556074470733]
命令チューニングは、認知モデルの観点から、必ずしも人間のような大きな言語モデルを作るとは限らない。
命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
論文 参考訳(メタデータ) (2023-11-13T17:19:14Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。