論文の概要: Process Matters more than Output for Distinguishing Humans from Machines
- arxiv url: http://arxiv.org/abs/2605.06524v1
- Date: Thu, 07 May 2026 16:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.9981
- Title: Process Matters more than Output for Distinguishing Humans from Machines
- Title(参考訳): 機械から人間を駆除するプロセスはアウトプット以上のもの
- Authors: Milena Rmus, Mathew D. Hardy, Thomas L. Griffiths, Mayank Agrawal,
- Abstract要約: 既存のアプローチは、システムが人間の行動と区別できない行動や反応を生成できるかどうかを評価する。
認知科学は、行動が生成される過程を評価するという別の視点を提供する。
タスク性能が一致しても、診断プロセスレベルの特徴を引き出すために設計された30の認知タスクからなる電池であるCagCAPTCHA30を紹介する。
- 参考スコア(独自算出の注目度): 7.119190908886132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable human-machine discrimination is becoming increasingly important as large language models and autonomous agents are deployed in online settings. Existing approaches evaluate whether a system can produce behavior or responses indistinguishable from those of a human, following the emphasis on outputs as a criterion for intelligence proposed by Alan Turing. Cognitive science offers an alternative perspective: evaluating the process by which behavior is produced. To test whether cognitive processes can reliably distinguish humans from machines, we introduce CogCAPTCHA30, a battery of 30 cognitive tasks designed to elicit diagnostic process-level features even when task performance is matched. Across the battery, process-level features provide stronger discriminative signal than performance metrics alone, reliably distinguishing humans from agents even under output matching (mean process-feature classifier AUC = 0.88). To evaluate agentic process differences, we compare off-the-shelf frontier agents (Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro), Centaur (a language model fine-tuned on 10.7M human decisions), and two task-specific fine-tuning approaches applied to Qwen2.5-1.5B-Instruct: action-level supervised fine-tuning (A-SFT) and process-level fine-tuning (P-SFT), which directly optimizes process features. Broad fine-tuning on human decisions improves human-like task processes relative to off-the-shelf agents, while task-specific process-level supervision further improves behavioral mimicry. However, this advantage diminishes under cross-task transfer when supervised process targets do not naturally generalize across tasks. Explicit process-level supervision can improve human behavioral mimicry, but only if appropriate task-specific process representations are available, highlighting process specification as a bottleneck for achieving human-like cognitive processes in machines.
- Abstract(参考訳): 大規模言語モデルや自律エージェントがオンライン環境に展開されるにつれ、信頼性の高い人間機械の識別がますます重要になっている。
既存のアプローチでは、アラン・チューリングが提唱した知能の基準として出力に重点を置いて、システムが人間の行動と区別できない反応を生成できるかどうかを評価する。
認知科学は、行動が生成されるプロセスを評価するという別の視点を提供する。
認知プロセスが人間と機械を確実に区別できるかどうかを検証するために,タスク性能が一致した場合でも,認知プロセスレベルの特徴を引き出すように設計された,30の認知タスクからなる電池であるCogCAPTCHA30を導入する。
バッテリー全体にわたって、プロセスレベルの特徴は、パフォーマンス指標単独よりも強力な識別信号を提供し、出力マッチングの下でも人間とエージェントを確実に区別する(プロセス特徴分類器AUC = 0.88)。
エージェントプロセスの違いを評価するために,プロセス機能を直接最適化するプロセスレベル監視細調整(A-SFT)とプロセスレベル微調整(P-SFT)の2つのタスク固有細調整アプローチ(Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro)とCentaur(10.7Mの人間決定を微調整した言語モデル)を比較した。
人間の意思決定を広範囲に微調整することで、オフザシェルフエージェントに対するヒューマンライクなタスクプロセスが改善され、タスク固有のプロセスレベルの監視により、行動模倣がさらに改善される。
しかし、この利点は、監督されたプロセスターゲットがタスクをまたいで自然に一般化しない場合、クロスタスク転送において減少する。
プロセスレベルの明示的な監督は、人間の行動模倣を改善することができるが、適切なタスク固有のプロセス表現が利用可能である場合に限り、マシン内で人間のような認知プロセスを達成するためのボトルネックとしてプロセス仕様を強調する。
関連論文リスト
- Beyond State Machines: Executing Network Procedures with Agentic Tool-Calling Sequences [3.14370243265882]
大規模言語モデル(LLM)ベースのネットワークAIエージェントを使用して、ツール呼び出しのシーケンスとして表現されたネットワークプロシージャを実行することができる。
そこで本研究では,エージェントがプロシージャの取得方法と,エージェントとツール間の実行方法が異なる4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2026-05-04T13:34:20Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization [50.11607985532808]
異種タスクとサンプルのバランスをとるRL法であるHARPO(Heterogeneity-Aware Relative Policy Optimization)を紹介する。
HARPOを用いて,社会行動処理の基礎モデルであるOmnisapiens-7B 2.0を開発した。
既存の行動基盤モデルとは対照的に、Omnisapiens-7B 2.0は行動タスク間で最高のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T08:35:59Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.57167042285437]
エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。
結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
論文 参考訳(メタデータ) (2025-10-26T18:10:22Z) - PADME: Procedure Aware DynaMic Execution [7.8148770419284865]
本稿では,プロシージャをグラフベースで表現するエージェントフレームワークであるPADME(Process Aware DynaMic Execution)を紹介する。
手動グラフ構築や非構造化推論に依存する以前の作業とは異なり、PADMEは手続き的テキストを自動で実行可能なグラフに変換する。
PADMEは、ALFWorldとScienceWorldを含む4つの異なるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-13T11:15:49Z) - LLMs that Understand Processes: Instruction-tuning for Semantics-Aware Process Mining [1.3050391810942312]
セマンティクスを意識したプロセスマイニングは、プロセス内でどのような振る舞いを可能にするべきかに焦点を当てる。
大規模言語モデル(LLM)は意味論的タスクに対処するための強力な手段を提供する。
本稿では,意味論的プロセスマイニングのための命令チューニングの可能性について検討する。
論文 参考訳(メタデータ) (2025-08-22T10:13:13Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。