論文の概要: Learning Task Decomposition to Assist Humans in Competitive Programming
- arxiv url: http://arxiv.org/abs/2406.04604v1
- Date: Fri, 7 Jun 2024 03:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:39:08.303076
- Title: Learning Task Decomposition to Assist Humans in Competitive Programming
- Title(参考訳): 競争プログラミングにおける人力支援のためのタスク分解の学習
- Authors: Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang,
- Abstract要約: タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
- 参考スコア(独自算出の注目度): 90.4846613669734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.
- Abstract(参考訳): 複雑な問題を解決するために言語モデル(LM)を使用する場合、人間はLM生成した解決策を理解し、欠陥のあるものを修正するのに苦労するかもしれない。
そこで本研究では, 複雑な解を, 特定のサブタスクに対応する複数の単純なピースに自動的に分解する手法を提案する。
本研究では, 課題分解学習のための新しい目標である補助値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
収集したデータをインコンテキストの例として利用して、AssistVを改善するために分解されたソリューションを批判し、洗練し、ランク付けすることを学ぶ。
我々は,本手法を競合プログラミング問題下で検証する。人間研究177時間で,非専門家が33.3倍の問題を解き,3.3倍の速度で高速化し,無支援の専門家とのマッチングを可能にする。
関連論文リスト
- Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation [39.805610561281455]
LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。
ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。
本稿では,新しい2成分微調整法を提案する。
当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
論文 参考訳(メタデータ) (2024-11-01T07:18:31Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Learning by Grouping: A Multilevel Optimization Framework for Improving
Fairness in Classification without Losing Accuracy [19.84719054826755]
場合によっては、特定の社会集団に対する偏見や差別を示すことによって、AIシステムは不公平である場合もある。
そこで我々は,MLモデルを学習し,様々な問題集合を個別のサブグループに分類し,各サブグループを解く新しい機械学習フレームワークを提案する。
提案するフレームワークは,3段階の最適化問題として定式化された3段階の学習を含む。
論文 参考訳(メタデータ) (2023-04-02T08:45:08Z) - Planning and Scheduling in Digital Health with Answer Set Programming [0.0]
医療の問題は、解決するためには、いくつかの制約と異なるタイプのリソースを考慮する必要があるため、複雑である。
我々は、すでにテスト済みのソリューションを拡張したり、新しい問題に対するソリューションをモデル化することで、このような問題の解決策を提案する予定です。
論文 参考訳(メタデータ) (2022-08-05T10:51:02Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Extending the Hint Factory for the assistance dilemma: A novel,
data-driven HelpNeed Predictor for proactive problem-solving help [6.188683567894372]
非生産的な問題解決のステップを分類し、予測し、予防するための、データ駆動型の一連の手法を提案する。
本稿では,学生が非生産的になる確率を決定するために,事前の学生データを用いたHelpNeed分類を提案する。
我々は、これらのHelpNeedメソッドが、他のよく構造化されたオープンエンドドメインにどのように適用できるかという提案で締めくくった。
論文 参考訳(メタデータ) (2020-10-08T17:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。