論文の概要: Are they human? Detecting large language models by probing human memory constraints
- arxiv url: http://arxiv.org/abs/2604.00016v1
- Date: Tue, 10 Mar 2026 21:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.192619
- Title: Are they human? Detecting large language models by probing human memory constraints
- Title(参考訳): 人間か?人間の記憶制約を探索して大きな言語モデルを検出する
- Authors: Simon Schug, Brenden M. Lake,
- Abstract要約: オンライン行動研究の妥当性は、研究参加者が機械ではなく人間であることに依存している。
大規模言語モデル(LLM)に基づく汎用エージェントは、今や多くの課題を解決し、オンライン行動研究の妥当性を脅かすことができる。
オンライン参加者とLLMを区別するために,標準シリアルリコールタスクにおける認知モデルを用いることが示唆された。
- 参考スコア(独自算出の注目度): 7.063564727972718
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The validity of online behavioral research relies on study participants being human rather than machine. In the past, it was possible to detect machines by posing simple challenges that were easily solved by humans but not by machines. General-purpose agents based on large language models (LLMs) can now solve many of these challenges, threatening the validity of online behavioral research. Here we explore the idea of detecting humanness by using tasks that machines can solve too well to be human. Specifically, we probe for the existence of an established human cognitive constraint: limited working memory capacity. We show that cognitive modeling on a standard serial recall task can be used to distinguish online participants from LLMs even when the latter are specifically instructed to mimic human working memory constraints. Our results demonstrate that it is viable to use well-established cognitive phenomena to distinguish LLMs from humans.
- Abstract(参考訳): オンライン行動研究の妥当性は、研究参加者が機械ではなく人間であることに依存している。
過去には、人間が簡単に解けるが機械では解けない簡単な挑戦をすることで、機械を検出できた。
大規模言語モデル(LLM)に基づく汎用エージェントはこれらの課題の多くを解決でき、オンライン行動研究の有効性を脅かす。
ここでは、機械が人間であるのにうまく解決できないタスクを使用することで、人間性を検出するという考え方を探求する。
具体的には,作業記憶能力の制限という,確立された人間の認知的制約の存在を調査する。
本研究では,オンライン参加者をLLMと区別するために,標準シリアルリコールタスクの認知モデルを用いることが可能であることを示す。
以上の結果から, LLMを人間と区別するために, 確立された認知現象を用いることが可能であることが示唆された。
関連論文リスト
- Emergence of Human to Robot Transfer in Vision-Language-Action Models [88.76648919814771]
VLA(Vision-Language-action)モデルは、幅広いオープンワールドの一般化を可能にするが、大規模で多様なデータセットを必要とする。
VLAが十分なシーン、タスク、実施状況で事前訓練された後に、人間とロボットの移動が出現することを示す。
論文 参考訳(メタデータ) (2025-12-27T00:13:11Z) - HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes [72.26829188852139]
HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。
Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。
Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
論文 参考訳(メタデータ) (2025-08-19T09:52:04Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。