Fugu-MT 論文翻訳(概要): An Annotated Dataset of Stack Overflow Post Edits

関連論文リスト

Does Editing Improve Answer Quality on Stack Overflow? A Data-Driven Investigation [5.176434782905268]
Stack Overflowのような技術Q&Aプラットフォームの低品質な回答には、非効率性、バグ、セキュリティ脆弱性が導入されている。コンテンツ品質を改善するために、SOは共同編集を可能にする。我々は,少なくとも1つの編集を受理したPython関連の94,994の回答を分析し,編集がセマンティック関連性,コード使用性,(3)コードの複雑さ,(4)セキュリティ脆弱性,(5)コードの最適化,(6)可読性を改善するかどうかを判定する。
論文参考訳（メタデータ） (2025-07-28T20:51:55Z)
Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [78.05609552686053]
この研究は、テキストエンコーダの観察された制限に焦点を当てている。埋め込みはセマンティクス内のきめ細かいエンティティやイベントを認識できない可能性がある。我々は中国語で新しい評価データセットであるCapRetrievalを紹介し、その文節は画像キャプションであり、クエリは様々な形式のエンティティやイベントを問うフレーズである。ゼロショット評価は、トレーニングソースやモデルサイズに関わらず、エンコーダがこれらのきめ細かいマッチングで失敗する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-06-10T09:00:33Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
GitBugs: Bug Reports for Duplicate Detection, Retrieval Augmented Generation, Triage, and More [0.0]
私たちはGitBugsを紹介します。9つのアクティブにメンテナンスされているオープンソースプロジェクトから15万以上のバグレポートを収集し、簡潔で最新のデータセットです。 GitBugsはGithub、Bugzilla、Jiraのイシュートラッカからのデータを集約し、分類タスクの標準化されたカテゴリフィールドを提供する。予報分析ノートや、重複率や解像度時間などの詳細なプロジェクトレベルの統計情報が含まれている。
論文参考訳（メタデータ） (2025-04-13T16:55:28Z)
HaPy-Bug -- Human Annotated Python Bug Resolution Dataset [34.82692226532414]
HaPy-Bugは、バグ修正に関連する793のPythonソースコードコミットのキュレートデータセットである。我々はHaPy-Bugを分析し、ファイルの目的、変更の種類、および絡み合った変更の分布を調べる。
論文参考訳（メタデータ） (2025-04-07T08:04:56Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions [6.367360745627828]
コード編集タスクのベンチマークを導入し、それをいくつかの最先端LCMの評価に利用する。我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。我々は、自然言語命令と組み合わされたコード編集タスクの新しい、慎重にキュレートされ、パーミッシブにライセンスされたトレーニングデータセットを導入する。
論文参考訳（メタデータ） (2023-12-11T02:27:45Z)
InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。 InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。 InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-31T10:15:35Z)
WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文参考訳（メタデータ） (2023-10-08T04:46:39Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文参考訳（メタデータ） (2022-05-09T05:40:52Z)
DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文参考訳（メタデータ） (2022-01-14T00:16:57Z)
ComSum: Commit Messages Summarization and Meaning Preservation [17.489658296438694]
テキスト要約のための700万のコミットメッセージからなるデータセットであるComSumを提示する。サイズ、実用性、挑戦的な言語ドメインの増大とともに、このデータセットは経験的ソフトウェア工学の生きた分野の恩恵を受けている。
論文参考訳（メタデータ） (2021-08-23T07:43:48Z)
On Multi-Modal Learning of Editing Source Code [17.28158089963557]
近年、Neural Machine Translator (NMT) はソースコードを自動編集することを約束している。本研究では、位置情報の編集、コードコンテキストの編集、(自然言語における開発者のヒントのプロキシとして)メッセージのコミットという3つのモードを利用して、NMTモデルによる編集を自動的に生成する。入力モダリティとしての開発者のヒントは、パッチの検索スペースを狭くし、最先端モデルより優れ、トップ1位置で正しくパッチされたコードを生成することができることを示す。
論文参考訳（メタデータ） (2021-08-15T02:06:49Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: An Annotated Dataset of Stack Overflow Post Edits

関連論文リスト