Fugu-MT 論文翻訳(概要): Learning Task Decomposition to Assist Humans in Competitive Programming

論文の概要: Learning Task Decomposition to Assist Humans in Competitive Programming

arxiv url: http://arxiv.org/abs/2406.04604v3
Date: Tue, 23 Jul 2024 18:26:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 18:31:55.890629
Title: Learning Task Decomposition to Assist Humans in Competitive Programming
Title（参考訳）: 競争プログラミングにおける人力支援のためのタスク分解の学習
Authors: Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang,
Abstract要約: タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
参考スコア（独自算出の注目度）: 90.4846613669734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.
Abstract（参考訳）: 複雑な問題を解決するために言語モデル(LM)を使用する場合、人間はLM生成した解決策を理解し、欠陥のあるものを修正するのに苦労するかもしれない。そこで本研究では, 複雑な解を, 特定のサブタスクに対応する複数の単純なピースに自動的に分解する手法を提案する。本研究では, 課題分解学習のための新しい目標である補助値(AssistV)を導入する。我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。収集したデータをインコンテキストの例として利用して、AssistVを改善するために分解されたソリューションを批判し、洗練し、ランク付けすることを学ぶ。我々は,本手法を競合プログラミング問題下で検証する。人間研究177時間で,非専門家が33.3倍の問題を解き,3.3倍の速度で高速化し,無支援の専門家とのマッチングを可能にする。

関連論文リスト

Dr. Zero: Self-Evolving Search Agents without Training Data [34.91191770652202]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文参考訳（メタデータ） (2026-01-11T20:27:55Z)
Learning the Boundary of Solvability: Aligning LLMs to Detect Unsolvable Problems [51.62477754641947]
本研究では,実現可能な問題を解き,固有の矛盾を検知し,能力を超えたタスクを慎重に拒否するUnsolvableQAとUnsolvableRLを提案する。具体的には、双トラック手法を用いて導出される、ペアで解決可能かつ解決不可能なインスタンスのデータセットであるUnsolvableQAを構築する。このデータセット上に構築されたUnsolvableRLは,精度,未解決性,難易度を考慮した3つの報酬成分を備えた強化学習フレームワークである。
論文参考訳（メタデータ） (2025-12-01T13:32:59Z)
OpenCoderRank: AI-Driven Technical Assessments Made Easy [1.0499611180329802]
本稿では,技術評価をシミュレートするために設計された,使い易いOpenCoderRankを紹介する。問題セッターと問題解決者の間の橋渡しとして機能し、問題解決者が時間制約や不慣れな問題に備えるのを助ける。
論文参考訳（メタデータ） (2025-09-08T14:58:10Z)
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation [39.805610561281455]
LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。本稿では,新しい2成分微調整法を提案する。当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
論文参考訳（メタデータ） (2024-11-01T07:18:31Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。 Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文参考訳（メタデータ） (2023-11-13T16:00:16Z)
Learning by Grouping: A Multilevel Optimization Framework for Improving Fairness in Classification without Losing Accuracy [19.84719054826755]
場合によっては、特定の社会集団に対する偏見や差別を示すことによって、AIシステムは不公平である場合もある。そこで我々は,MLモデルを学習し,様々な問題集合を個別のサブグループに分類し,各サブグループを解く新しい機械学習フレームワークを提案する。提案するフレームワークは,3段階の最適化問題として定式化された3段階の学習を含む。
論文参考訳（メタデータ） (2023-04-02T08:45:08Z)
Planning and Scheduling in Digital Health with Answer Set Programming [0.0]
医療の問題は、解決するためには、いくつかの制約と異なるタイプのリソースを考慮する必要があるため、複雑である。我々は、すでにテスト済みのソリューションを拡張したり、新しい問題に対するソリューションをモデル化することで、このような問題の解決策を提案する予定です。
論文参考訳（メタデータ） (2022-08-05T10:51:02Z)
A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文参考訳（メタデータ） (2021-06-14T05:47:41Z)
Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文参考訳（メタデータ） (2021-04-22T17:38:27Z)
Learning by Fixing: Solving Math Word Problems with Weak Supervision [70.62896781438694]
数学用語問題(mwps)の従来のニューラルネットワークソルバは、完全な監視によって学習され、多様なソリューションを生み出すことができない。 MWPを学習するためのテキスト弱教師付きパラダイムを提案する。この手法は最終回答のアノテーションのみを必要とし、単一の問題に対して様々な解決策を生成できる。
論文参考訳（メタデータ） (2020-12-19T03:10:21Z)
Extending the Hint Factory for the assistance dilemma: A novel, data-driven HelpNeed Predictor for proactive problem-solving help [6.188683567894372]
非生産的な問題解決のステップを分類し、予測し、予防するための、データ駆動型の一連の手法を提案する。本稿では,学生が非生産的になる確率を決定するために,事前の学生データを用いたHelpNeed分類を提案する。我々は、これらのHelpNeedメソッドが、他のよく構造化されたオープンエンドドメインにどのように適用できるかという提案で締めくくった。
論文参考訳（メタデータ） (2020-10-08T17:04:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。