論文の概要: OpenCoderRank: AI-Driven Technical Assessments Made Easy
- arxiv url: http://arxiv.org/abs/2509.06774v1
- Date: Mon, 08 Sep 2025 14:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.203138
- Title: OpenCoderRank: AI-Driven Technical Assessments Made Easy
- Title(参考訳): OpenCoderRank: AI駆動の技術的アセスメントが簡単に
- Authors: Hridoy Sankar Dutta, Sana Ansari, Swati Kumari, Shounak Ravi Bhalerao,
- Abstract要約: 本稿では,技術評価をシミュレートするために設計された,使い易いOpenCoderRankを紹介する。
問題セッターと問題解決者の間の橋渡しとして機能し、問題解決者が時間制約や不慣れな問題に備えるのを助ける。
- 参考スコア(独自算出の注目度): 1.0499611180329802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations and educational institutions use time-bound assessment tasks to evaluate coding and problem-solving skills. These assessments measure not only the correctness of the solutions, but also their efficiency. Problem setters (educator/interviewer) are responsible for crafting these challenges, carefully balancing difficulty and relevance to create meaningful evaluation experiences. Conversely, problem solvers (student/interviewee) apply coding efficiency and logical thinking to arrive at correct solutions. In the era of Large Language Models (LLMs), LLMs assist problem setters in generating diverse and challenging questions, but they can undermine assessment integrity for problem solvers by providing easy access to solutions. This paper introduces OpenCoderRank, an easy-to-use platform designed to simulate technical assessments. It acts as a bridge between problem setters and problem solvers, helping solvers prepare for time constraints and unfamiliar problems while allowing setters to self-host assessments, offering a no-cost and customizable solution for technical assessments in resource-constrained environments.
- Abstract(参考訳): 組織や教育機関は、コーディングと問題解決のスキルを評価するために、タイムバウンドアセスメントタスクを使用します。
これらの評価は、解の正しさだけでなく、その効率も測定する。
問題セッター(教育者/インタビュアー)はこれらの課題の作成に責任を持ち、難易度と関連性を慎重にバランスさせ、有意義な評価経験を生み出す。
逆に、問題解決者(学生/インタビュータ)は、正しい解に到達するために、コーディング効率と論理的思考を適用します。
LLM(Large Language Models)の時代において、LLMは多様で挑戦的な質問を生成するために問題セッターを支援するが、ソリューションへの容易にアクセスを提供することで問題解決者に対する評価の整合性を損なうことができる。
本稿では,技術評価をシミュレートするために設計された,使い易いOpenCoderRankを紹介する。
これは問題セッターと問題解決者の間の橋渡しとして機能し、解決者が時間制約や不慣れな問題に備えるのを助けながら、セッターが自己ホスト型アセスメントを許容し、リソース制約のある環境で技術的アセスメントのための費用がかからない、カスタマイズ可能なソリューションを提供する。
関連論文リスト
- FrontierCS: Evolving Challenges for Evolving Intelligence [174.80075821079708]
コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。
各問題に対して、専門家の参照ソリューションと自動評価器を提供する。
私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
論文 参考訳(メタデータ) (2025-12-17T18:52:45Z) - Learning the Boundary of Solvability: Aligning LLMs to Detect Unsolvable Problems [51.62477754641947]
本研究では,実現可能な問題を解き,固有の矛盾を検知し,能力を超えたタスクを慎重に拒否するUnsolvableQAとUnsolvableRLを提案する。
具体的には、双トラック手法を用いて導出される、ペアで解決可能かつ解決不可能なインスタンスのデータセットであるUnsolvableQAを構築する。
このデータセット上に構築されたUnsolvableRLは,精度,未解決性,難易度を考慮した3つの報酬成分を備えた強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T13:32:59Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information [21.562453754113072]
大規模推論モデル (LRM) は数学において顕著な問題解決能力を示している。
多様な文脈を持つ2種類の不完全な問題からなる新しいデータセットを提案する。
このデータセットに基づいて, LRMの系統的評価を行ったところ, 積極的に情報を求めることができないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T06:42:00Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
BloomWiseは認知にインスパイアされた大規模言語モデル(LLM)のプロンプト技術である
解法をより説明しやすいものにしながら、数学的問題解決におけるLLMの性能を高めるように設計されている。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Estimating Difficulty Levels of Programming Problems with Pre-trained Model [18.92661958433282]
プログラミング問題の難易度は、生徒の適応学習を導く上で不可欠な基準となっている。
テキスト記述とコードの解の例から,各プログラム問題の難易度自動推定の問題を定式化する。
この問題に対処するため,テキストモダリティとコードモダリティの2つの事前学習モデルを統一モデルに分割することを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:20Z) - Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文 参考訳(メタデータ) (2024-06-07T03:27:51Z) - Probeable Problems for Beginner-level Programming-with-AI Contests [0.0]
我々は,複数の機関の学部生を対象に,2時間のプログラミングコンテストを実施している。
学生は個人またはグループで働けるようになり、AIツールを自由に使えるようになった。
これらのグループによって提出されたコードが、欠落した詳細を特定できる範囲を分析し、形式的および非公式なCS教育文脈における学習を支援する方法を特定する。
論文 参考訳(メタデータ) (2024-05-24T00:39:32Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Steps Before Syntax: Helping Novice Programmers Solve Problems using the
PCDIT Framework [2.768397481213625]
初心者プログラマは、直面する高い認知的負荷のために、しばしば問題解決に苦労します。
多くの入門プログラミングコースは、その途中で問題解決スキルが取得されるという前提で、それを明示的に教えていない。
問題仕様を命令型プログラミング言語のための実装およびテストされたソリューションに変換するプロセスを通じて、初心者プログラマを誘導するための足場を提供する非線形問題解決フレームワークである 'PCDIT' を提案する。
論文 参考訳(メタデータ) (2021-09-18T10:31:15Z) - Probably Approximately Correct Constrained Learning [135.48447120228658]
我々は、ほぼ正しい学習フレームワーク(PAC)に基づく一般化理論を開発する。
PAC学習可能なクラスも制約のある学習者であるという意味では,学習者の導入は学習問題を難しくするものではないことを示す。
このソリューションの特性を分析し,制約付き学習が公平でロバストな分類における問題にどのように対処できるかを説明する。
論文 参考訳(メタデータ) (2020-06-09T19:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。