論文の概要: Evidence of conceptual mastery in the application of rules by Large Language Models
- arxiv url: http://arxiv.org/abs/2503.00992v1
- Date: Sun, 02 Mar 2025 19:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:18.031290
- Title: Evidence of conceptual mastery in the application of rules by Large Language Models
- Title(参考訳): 大規模言語モデルによるルールの適用における概念的熟達の証拠
- Authors: José Luiz Nunes, Guilherme FCF Almeida, Brian Flanagan,
- Abstract要約: ルールに基づく意思決定を人間とLLMで比較した2つの実験を行った。
ヒトの2つのシナリオの差は予想外であった。
驚くべきことに、これらの違いでさえLLM応答で複製された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper we leverage psychological methods to investigate LLMs' conceptual mastery in applying rules. We introduce a novel procedure to match the diversity of thought generated by LLMs to that observed in a human sample. We then conducted two experiments comparing rule-based decision-making in humans and LLMs. Study 1 found that all investigated LLMs replicated human patterns regardless of whether they are prompted with scenarios created before or after their training cut-off. Moreover, we found unanticipated differences between the two sets of scenarios among humans. Surprisingly, even these differences were replicated in LLM responses. Study 2 turned to a contextual feature of human rule application: under forced time delay, human samples rely more heavily on a rule's text than on other considerations such as a rule's purpose.. Our results revealed that some models (Gemini Pro and Claude 3) responded in a human-like manner to a prompt describing either forced delay or time pressure, while others (GPT-4o and Llama 3.2 90b) did not. We argue that the evidence gathered suggests that LLMs have mastery over the concept of rule, with implications for both legal decision making and philosophical inquiry.
- Abstract(参考訳): 本稿では,ルール適用におけるLLMの概念的熟達を心理学的手法を用いて研究する。
本研究では, LLMが生み出す思考の多様性と, 人間のサンプルで観察される思考の多様性を一致させる新しい手法を提案する。
次に,ルールに基づく意思決定を人間とLLMで比較した2つの実験を行った。
研究1では、LLMのすべての研究は、トレーニングカットの前後で生成されたシナリオによって引き起こされるかどうかにかかわらず、人間のパターンを再現した。
さらに,人間同士のシナリオの相違が予想できないことがわかった。
驚くべきことに、これらの違いでさえLLM応答で複製された。
人間のサンプルはルールの目的など他の考慮事項よりもルールのテキストに大きく依存する。
と。
以上の結果から, いくつかのモデル (Gemini Pro と Claude 3) は, 強制遅延と時間圧のいずれにも反応するが, 他のモデル (GPT-4o と Llama 3.2 90b) は反応しなかった。
収集された証拠は、LLMが法的な意思決定と哲学的な探求の両方に影響を及ぼす、ルールの概念に精通していることを示唆していると論じる。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina [7.155982875107922]
研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。
このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。
11~20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
論文 参考訳(メタデータ) (2024-10-25T14:46:07Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:21:23Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - Exploring the psychology of LLMs' Moral and Legal Reasoning [0.0]
大規模言語モデル(LLM)は、さまざまな領域にわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
LLMによって提起された倫理的問題と将来のバージョンを整合させる必要性は、アートモデルの現状が道徳的および法的問題にどのように影響するかを知ることが重要である。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
ある実験から別の実験へと人間の反応の一致が変化し、モデルが全体として異なることがわかりました。
論文 参考訳(メタデータ) (2023-08-02T16:36:58Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。