論文の概要: ELABORATION: A Comprehensive Benchmark on Human-LLM Competitive Programming
- arxiv url: http://arxiv.org/abs/2505.16667v1
- Date: Thu, 22 May 2025 13:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.327606
- Title: ELABORATION: A Comprehensive Benchmark on Human-LLM Competitive Programming
- Title(参考訳): ELABORATION:人間-LLM競合プログラミングの総合ベンチマーク
- Authors: Xinwei Yang, Zhaofeng Liu, Chen Huang, Jiashuai Zhang, Tong Zhang, Yifan Zhang, Wenqiang Lei,
- Abstract要約: プログラミングプロセス全体を統合した人間のフィードバックの最初の分類を提示する。
また、人間-LLM競合プログラミングの徹底的な評価を容易にする新しいベンチマークであるELABORATIONを紹介する。
- 参考スコア(独自算出の注目度): 23.731654134407894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent research increasingly emphasizes the value of human-LLM collaboration in competitive programming and proposes numerous empirical methods, a comprehensive understanding remains elusive due to the fragmented nature of existing studies and their use of diverse, application-specific human feedback. Thus, our work serves a three-fold purpose: First, we present the first taxonomy of human feedback consolidating the entire programming process, which promotes fine-grained evaluation. Second, we introduce ELABORATIONSET, a novel programming dataset specifically designed for human-LLM collaboration, meticulously annotated to enable large-scale simulated human feedback and facilitate costeffective real human interaction studies. Third, we introduce ELABORATION, a novel benchmark to facilitate a thorough assessment of human-LLM competitive programming. With ELABORATION, we pinpoint strengthes and weaknesses of existing methods, thereby setting the foundation for future improvement. Our code and dataset are available at https://github.com/SCUNLP/ELABORATION
- Abstract(参考訳): 近年の研究では、競合プログラミングにおける人間とLLMのコラボレーションの価値がますます強調され、数多くの経験的手法が提案されているが、既存の研究の断片化の性質と、多様なアプリケーション固有の人間のフィードバックの使用により、包括的な理解はいまだに解明されていない。
第一に、プログラムプロセス全体を統合した人間のフィードバックの最初の分類を示し、きめ細かい評価を促進する。
第2に,人間とLLMの協調に特化して設計された新しいプログラミングデータセットであるELABORATIONSETを導入する。
第3に、人間-LLM競合プログラミングの徹底的な評価を容易にする新しいベンチマークであるELABORATIONを紹介する。
ELABORATIONでは、既存の手法の強みと弱みを指摘し、将来の改善の基礎を定めます。
私たちのコードとデータセットはhttps://github.com/SCUNLP/ELABORATIONで公開されています。
関連論文リスト
- Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Learning to Complement with Multiple Humans [21.247853435529446]
本稿では,LECOMH(Learning to Complement with Multiple Humans)アプローチを紹介する。
LECOMHは、クリーンなラベルに依存することなくノイズの多いラベルから学習し、協調的精度を最大化するように設計されている。
HAI-CC法を評価するために, トレーニングとテストの両方のための複数のノイズラベルを特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-22T05:31:06Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - A Survey of Human-in-the-loop for Machine Learning [7.056132067948671]
Human-in-the-loopは、人間の知識と経験を統合することで、最小限のコストで正確な予測モデルをトレーニングすることを目的としている。
本調査は,ループ内人間に対する高レベルな要約を提供することを目的としており,有効なループ内人間ソリューションを設計するためのアプローチを検討することに関心のある読者を動機付けている。
論文 参考訳(メタデータ) (2021-08-02T14:42:28Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。