論文の概要: ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval
- arxiv url: http://arxiv.org/abs/2602.05550v1
- Date: Thu, 05 Feb 2026 11:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.902144
- Title: ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval
- Title(参考訳): ArkTS-CodeSearch:コード検索のためのオープンソースArkTSデータセット
- Authors: Yulong He, Artem Ermakov, Sergey Kovalchuk, Artem Aliev, Dmitry Shalymov,
- Abstract要約: 本稿では,オープンソースリポジトリから構築した大規模ArkTSデータセットを提案する。
自然言語のコメントをArkTS関数の検索に使用する単一検索タスクを設計する。
この研究は、ArkTSコード検索のための最初の体系的なベンチマークを確立する。
- 参考スコア(独自算出の注目度): 1.7942265700058986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ArkTS is a core programming language in the OpenHarmony ecosystem, yet research on ArkTS code intelligence is hindered by the lack of public datasets and evaluation benchmarks. This paper presents a large-scale ArkTS dataset constructed from open-source repositories, targeting code retrieval and code evaluation tasks. We design a single-search task, where natural language comments are used to retrieve corresponding ArkTS functions. ArkTS repositories are crawled from GitHub and Gitee, and comment-function pairs are extracted using tree-sitter-arkts, followed by cross-platform deduplication and statistical analysis of ArkTS function types. We further evaluate all existing open-source code embedding models on the single-search task and perform fine-tuning using both ArkTS and TypeScript training datasets, resulting in a high-performing model for ArkTS code understanding. This work establishes the first systematic benchmark for ArkTS code retrieval. Both the dataset and our fine-tuned model will be released publicly and are available at https://huggingface.co/hreyulog/embedinggemma_arkts and https://huggingface.co/datasets/hreyulog/arkts-code-docstring,establishing the first systematic benchmark for ArkTS code retrieval.
- Abstract(参考訳): ArkTSはOpenHarmonyエコシステムの中核的なプログラミング言語だが、ArkTSコードインテリジェンスの研究は、公開データセットと評価ベンチマークの欠如によって妨げられている。
本稿では,オープンソースリポジトリから構築した大規模ArkTSデータセットについて述べる。
自然言語のコメントをArkTS関数の検索に使用する単一検索タスクを設計する。
ArkTSリポジトリはGitHubとGiteeからクロールされ、コメントと関数のペアはtree-sitter-arktを使用して抽出される。
さらに、単一検索タスクに既存のすべてのオープンソースコード埋め込みモデルを評価し、ArkTSとTypeScriptのトレーニングデータセットを使用して微調整を行い、その結果、ArkTSコード理解のための高性能なモデルを実現した。
この研究は、ArkTSコード検索のための最初の体系的なベンチマークを確立する。
データセットと微調整されたモデルの両方が公開され、https://huggingface.co/hreyulog/embedinggemma_arktsとhttps://huggingface.co/datasets/hreyulog/arkts-code-docstringで利用可能になる。
関連論文リスト
- FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis [52.636738269442766]
本稿では,生のベンチマークと総合的自動評価フレームワークであるDeepScholar-benchを紹介する。
DeepScholar-benchは、最近の高品質なArXiv論文からクエリを抽出し、真の研究合成タスクにフォーカスしている。
また,LOTUS APIを用いて効率的に実装した参照パイプラインであるDeepScholar-baseを開発した。
論文 参考訳(メタデータ) (2025-08-27T16:36:34Z) - SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - EVOR: Evolving Retrieval for Code Generation [17.46870626157077]
検索拡張コード生成のための既存のパイプラインは、単一のソースを持つ静的ナレッジベースを使用している。
我々は,クエリと多様な知識ベースを同期的に進化させる新しいパイプラインEVORを開発した。
論文 参考訳(メタデータ) (2024-02-19T17:37:28Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Across-Task Neural Architecture Search via Meta Learning [1.225795556154044]
Adequate labeled data and expensive compute resources is the prequisites for the success of Neural Architecture search (NAS)
限られた計算リソースとデータを持つメタ学習シナリオにNASを適用するのは難しい。
本稿では、勾配に基づくメタラーニングとEAに基づくNASを組み合わせることで、タスク間ニューラルネットワーク探索(AT-NAS)を提案する。
論文 参考訳(メタデータ) (2021-10-12T09:07:33Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。