論文の概要: Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
- arxiv url: http://arxiv.org/abs/2410.09083v1
- Date: Sun, 6 Oct 2024 08:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:48:15.047764
- Title: Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
- Title(参考訳): LLMの意思決定論理と人間の認知の整合性:法的LLMを事例として
- Authors: Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang,
- Abstract要約: 本稿では,大規模言語モデルの意思決定ロジックと人間の認知との整合性を評価する手法を提案する。
我々は、LLMによって符号化された相互作用を原始的な決定論理として定量化する。
実験により、言語生成結果が正しいように見える場合でも、内部推論ロジックのかなりの部分が顕著な問題を含んでいることが示された。
- 参考スコア(独自算出の注目度): 43.67312098562139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a method to evaluate the alignment between the decision-making logic of Large Language Models (LLMs) and human cognition in a case study on legal LLMs. Unlike traditional evaluations on language generation results, we propose to evaluate the correctness of the detailed decision-making logic of an LLM behind its seemingly correct outputs, which represents the core challenge for an LLM to earn human trust. To this end, we quantify the interactions encoded by the LLM as primitive decision-making logic, because recent theoretical achievements have proven several mathematical guarantees of the faithfulness of the interaction-based explanation. We design a set of metrics to evaluate the detailed decision-making logic of LLMs. Experiments show that even when the language generation results appear correct, a significant portion of the internal inference logic contains notable issues.
- Abstract(参考訳): 本稿では,Lumge Language Models (LLM) の意思決定ロジックと人間の認知の整合性を評価する手法を提案する。
言語生成結果に関する従来の評価とは違って,LLMの詳細な意思決定ロジックの正確さは,その正確さの裏側で評価することを提案する。
この目的のために、LLMによって符号化された相互作用を原始的な決定論理として定量化する。
LLMの詳細な意思決定ロジックを評価するために,一連のメトリクスを設計する。
実験により、言語生成結果が正しいように見える場合でも、内部推論ロジックのかなりの部分が顕著な問題を含んでいることが示された。
関連論文リスト
- Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models [31.558429029429863]
我々は,より信頼性が高く信頼性の高いシステムのための前提条件として,Large Language Models (LLM) の論理的一貫性について検討する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - Logic-Enhanced Language Model Agents for Trustworthy Social Simulations [3.5083201638203154]
本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。
本稿では,社会シミュレーションの信頼性を高める新しいアプローチである論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Argumentative Large Language Models for Explainable and Contestable Decision-Making [13.045050015831903]
大規模言語モデル (LLMs) は意思決定において有望な候補である。
それらは、説明可能で競合可能なアウトプットを確実に提供できないため、制限されている。
議論フレームワークを構築するために LLM を利用する手法である 引数 LLM を導入する。
クレーム検証の意思決定タスクにおいて,議論的LLMの有効性を実験的に示す。
論文 参考訳(メタデータ) (2024-05-03T13:12:28Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。