論文の概要: Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14507v1
- Date: Tue, 23 May 2023 20:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:36:37.404096
- Title: Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models
- Title(参考訳): 摂動証拠に基づく推論--大規模言語モデルの学生シミュレーション能力の検証
- Authors: Shashank Sonkar, Richard G. Baraniuk
- Abstract要約: 我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
- 参考スコア(独自算出の注目度): 27.943334687742244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore whether Large Language Models (LLMs) are capable of logical
reasoning with distorted facts, which we call Deduction under Perturbed
Evidence (DUPE). DUPE presents a unique challenge to LLMs since they typically
rely on their parameters, which encode mostly accurate information, to reason
and make inferences. However, in DUPE, LLMs must reason over manipulated or
falsified evidence present in their prompts, which can result in false
conclusions that are valid only under the manipulated evidence. Our goal with
DUPE is to determine whether LLMs can arrive at these false conclusions and
identify whether the dominant factor influencing the deduction process is the
encoded data in the parameters or the manipulated evidence in the prompts. To
evaluate the DUPE capabilities of LLMs, we create a DUPEd version of the
StrategyQA dataset, where facts are manipulated to reverse the answer to the
question. Our findings show that even the most advanced GPT models struggle to
reason on manipulated facts - showcasing poor DUPE skills - with accuracy
dropping by 45% compared to the original dataset. We also investigate prompt
settings inspired from student simulation models, which mitigate the accuracy
drop to some extent. Our findings have practical implications for understanding
the performance of LLMs in real-world applications such as student simulation
models that involve reasoning over inaccurate information.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) がゆがんだ事実を論理的推論できるかどうかを考察し,Deduction under Perturbed Evidence (DUPE) と呼ぶ。
DUPEは、主に正確な情報をエンコードして推論し、推論するパラメータに依存するため、LSMに固有の課題を提示する。
しかし、DUPEでは、LLMは、操作された証拠またはそのプロンプトに存在する偽りの証拠を理性的に判断しなければならない。
DUPEの目標は、これらの誤った結論にLLMが到達できるかどうかを判断し、推論プロセスに影響を及ぼす支配的要因が、パラメータの符号化データか、プロンプトの操作された証拠かを特定することである。
LLMのDUPE機能を評価するために、我々はStrategyQAデータセットのDUPEdバージョンを作成し、事実を操作して質問に答える。
その結果,最も先進的なgptモデルでさえ,操作された事実 – 貧弱なダップスキルを示す – を推論するのに苦労しており,元のデータセットと比較して精度が45%低下していることがわかった。
また,学生シミュレーションモデルからインスパイアされたプロンプト設定についても検討し,精度低下をある程度軽減した。
本研究は,不正確な情報に対する推論を含む学生シミュレーションモデルのような実世界のアプリケーションにおけるLLMの性能を理解するための実践的な意味を持つ。
関連論文リスト
- Regressive Side Effects of Training Language Models to Mimic Student Misconceptions [25.90420385230675]
大規模言語モデルは、学生の誤解をより正確に模倣するように訓練されているため、モデルの事実的完全性と推論能力に妥協がある、という問題を強調する。
これらの副作用に対処するため,本研究では,学生の学習中に各学生の反応の先頭に付加された「幻覚トークン」手法を導入し,学生の誤解を模倣することと,事実的に正確な反応を提供することをモデルに指示した。
論文 参考訳(メタデータ) (2024-04-23T15:57:55Z) - Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model [6.097530398802087]
本稿では,音の度合いと言語モデルへの影響の関連性について,指導指導を通して検討する。
具体的には,データセットの事実性と指導調律の相関関係について,複数の興味深い知見を得た。
論文 参考訳(メタデータ) (2024-04-15T12:20:09Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [52.513957834345746]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。