論文の概要: RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback
- arxiv url: http://arxiv.org/abs/2510.06186v1
- Date: Tue, 07 Oct 2025 17:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.398857
- Title: RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback
- Title(参考訳): RECODE-H: 対話型フィードバックによる研究コード開発のためのベンチマーク
- Authors: Chunyu Miao, Henry Peng Zou, Yangning Li, Yankai Chen, Yibo Wang, Fangxin Wang, Yifan Li, Wooseong Yang, Bowei He, Xinni Zhang, Dianzhi Yu, Hanchen Yang, Hoang H Nguyen, Yue Zhou, Jie Yang, Jizhou Guo, Wenzhe Fan, Chin-Yuan Yeh, Panpan Meng, Liancheng Fang, Jinhu Qi, Wei-Chieh Huang, Zhengyao Gu, Yuwei Han, Langzhou He, Yuyao Yang, Xue Liu, Irwin King, Philip S. Yu,
- Abstract要約: 研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentも紹介します。
- 参考スコア(独自算出の注目度): 76.28414843494073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show the promise in supporting scientific research implementation, yet their ability to generate correct and executable code remains limited. Existing works largely adopt one-shot settings, ignoring the iterative and feedback-driven nature of realistic workflows of scientific research development. To address this gap, we present RECODE-H, a benchmark of 102 tasks from research papers and repositories that evaluates LLM agents through multi-turn interactions with LLM-simulated human feedback. It includes structured instructions,unit tests, and a five-level feedback hierarchy to reflect realistic researcher-agent collaboration. We further present ReCodeAgent, a framework that integrates feedback into iterative code generation. Experiments with leading LLMs, including GPT-5, Claude-Sonnet-4, DeepSeek-V3.1, and Gemini 2.5, show substantial performance gains with richer feedback, while also highlighting ongoing challenges in the generation of complex research code. RECODE-H establishes a foundation for developing adaptive, feedback-driven LLM agents in scientific research implementation
- Abstract(参考訳): 大規模言語モデル(LLM)は科学的研究の実装をサポートするという約束を示しているが、正しい実行可能コードを生成する能力は限られている。
既存の作品は、科学研究開発における現実的なワークフローの反復的でフィードバック駆動的な性質を無視して、一発設定をほとんど採用している。
このギャップに対処するため,研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentについても紹介する。
GPT-5、Claude-Sonnet-4、DeepSeek-V3.1、Gemini 2.5といった先進的なLLMの実験では、よりリッチなフィードバックによる大幅なパフォーマンス向上と、複雑な研究コードの生成における継続的な課題が強調されている。
RECODE-Hは科学研究における適応的フィードバック駆動型LLMエージェント開発の基礎を築いた
関連論文リスト
- LMR-BENCH: Evaluating LLM Agent's Ability on Reproducing Language Modeling Research [32.35279830326718]
大規模言語モデル(LLM)エージェントは、科学的発見の進展に顕著な可能性を証明している。
しかし、研究論文、特にNLPドメインからコードを再生する能力は、いまだ解明されていない。
本稿ではLMR-BENCHについて述べる。LMR-BENCHは言語モデリング研究におけるLLMエージェントのコード再生能力を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-19T07:04:16Z) - Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding [6.867043179943195]
大規模言語モデル(LLM)はコード生成において前例のない能力を示している。
最近の研究によると、開発者はLLMが生成した間違ったコードの検査と修正に苦労することが多い。
コミュニケーションにおける相互基盤理論に着想を得て,コードコメントを開発者やLLMにとってのメディアとして活用し,共通理解を確立するインタラクティブなアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:20:30Z) - FutureGen: A RAG-based Approach to Generate the Future Work of Scientific Article [6.95264395009701]
科学論文のFuture Workセクションでは、現在の研究のギャップと限界を特定することによって、潜在的研究の方向性を概説している。
本研究では,研究論文から今後の課題を提案する。
大規模言語モデル(LLM)を検索拡張世代(RAG)に統合した実験を行った。
GPT-4o mini と LLM フィードバック機構を併用したRAG-based approach は,定性評価と定量的評価の両方に基づいて他の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-03-20T06:14:02Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation [36.1669124651617]
我々は,大規模言語モデルのコード生成性能を,ソフトウェア開発の進化的性質を反映した設定内で理解するための実証的研究を行う。
我々は、自動実行ベースの評価ツールを備えた進化型リポジトリレベルのコード生成データセットであるHumanEvoを使用します。
従来の進化を無視した評価手法は, 10.0%から61.1%の範囲で, LLMの膨張性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-11T03:19:18Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。