論文の概要: TEC: A Collection of Human Trial-and-error Trajectories for Problem Solving
- arxiv url: http://arxiv.org/abs/2604.06734v1
- Date: Wed, 08 Apr 2026 06:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.377261
- Title: TEC: A Collection of Human Trial-and-error Trajectories for Problem Solving
- Title(参考訳): TEC: 問題解決のためのヒューマントライアルとエラーの軌跡集
- Authors: Xinkai Zhang, Jingtao Zhan, Yiqun Liu, Qingyao Ai,
- Abstract要約: データアノテーションプラットフォームとそれに対応するデータセットであるTrial-and-Error Collection(TEC)を導入する。
TECは、ユーザの完全な軌道を複数のトライアルで記録し、エラーフィードバックを受けた後にリフレクションを収集する。
LLMと比較して人間の方が精度がかなり高いことが観察された。
- 参考スコア(独自算出の注目度): 27.13823226109943
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Trial-and-error is a fundamental strategy for humans to solve complex problems and a necessary capability for Artificial Intelligence (AI) systems operating in real-world environments. Although several trial-and-error AI techniques have recently been proposed, most of them rely on simple heuristics designed by researchers and achieve limited performance gains. The core issue is the absence of appropriate data: current models cannot learn from detailed records of how humans actually conduct trial-and-error in practice. To address this gap, we introduce a data annotation platform and a corresponding dataset, termed Trial-and-Error Collection (TEC). The platform records users' complete trajectories across multiple trials and collects their reflections after receiving error feedback. Using this platform, we record the problem-solving processes of 46 participants on 58 tasks, resulting in 5,370 trial trajectories along with error reflections across 41,229 webpages. With this dataset, we observe that humans achieve substantially higher accuracy compared to LLMs, which demonstrates that humans are more effective in trial-and-error than LLMs. We believe that the TEC platform and dataset provide a valuable foundation for understanding human trial-and-error behavior and for developing more capable AI systems. Platform and dataset are publicly available.
- Abstract(参考訳): トライアル・アンド・エラー(Trial-and-error)は、人間が複雑な問題を解決するための基本的な戦略であり、実環境で動作する人工知能(AI)システムに必要な能力である。
近年、いくつかの試行錯誤AI技術が提案されているが、その多くは研究者が設計した単純なヒューリスティックに頼り、限られた性能向上を実現している。
現在のモデルは、人間が実際に試行錯誤を行う方法の詳細な記録から学べない。
このギャップに対処するために、データアノテーションプラットフォームと、Trial-and-Error Collection (TEC)と呼ばれるデータセットを導入します。
このプラットフォームは、複数のトライアルにわたるユーザの完全なトラジェクトリを記録し、エラーフィードバックを受けた後にリフレクションを収集する。
このプラットフォームを用いて、46人の参加者の58のタスクにおける問題解決プロセスを記録し、結果として5,370のトライアルトラジェクトリと41,229のWebページにわたるエラーリフレクションが得られた。
このデータセットにより、人間はLSMよりもはるかに高い精度を達成でき、LLMよりも人間の方が試行錯誤に効果的であることを示す。
私たちは、TECプラットフォームとデータセットが、人間の試行錯誤行動を理解し、より有能なAIシステムを開発するための貴重な基盤を提供すると信じています。
プラットフォームとデータセットが公開されている。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。
削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。
選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation [30.791222277450053]
現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。
本稿では、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、故障したトラジェクトリセグメントの品質スコアを計算する。
SSDFは、高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善する。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。