論文の概要: Synergistic Enhancement of Requirement-to-Code Traceability: A Framework Combining Large Language Model based Data Augmentation and an Advanced Encoder
- arxiv url: http://arxiv.org/abs/2509.20149v2
- Date: Sun, 19 Oct 2025 14:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.585196
- Title: Synergistic Enhancement of Requirement-to-Code Traceability: A Framework Combining Large Language Model based Data Augmentation and an Advanced Encoder
- Title(参考訳): 要求からコードへのトレーサビリティの相乗的向上:大規模言語モデルに基づくデータ拡張と高度なエンコーダを組み合わせたフレームワーク
- Authors: Jianzhang Zhang, Jialong Zhou, Nan Niu, Jinping Hua, Chuang Liu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)によるデータ拡張と高度なエンコーダを統合するフレームワークを提案し,検証する。
まず、双方向およびゼロ/フェーショットプロンプト戦略の体系的評価によって最適化されたデータ拡張が、非常に効果的であることを実証した。
さらに、より広範な事前学習コーパスと拡張コンテキストウィンドウによって区別されるエンコーダを組み込むことにより、最先端の事前学習言語モデルに基づく確立された手法をさらに強化する。
- 参考スコア(独自算出の注目度): 5.241456612683375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated requirement-to-code traceability link recovery, essential for industrial system quality and safety, is critically hindered by the scarcity of labeled data. To address this bottleneck, this paper proposes and validates a synergistic framework that integrates large language model (LLM)-driven data augmentation with an advanced encoder. We first demonstrate that data augmentation, optimized through a systematic evaluation of bi-directional and zero/few-shot prompting strategies, is highly effective, while the choice among leading LLMs is not a significant performance factor. Building on the augmented data, we further enhance an established, state-of-the-art pre-trained language model based method by incorporating an encoder distinguished by a broader pre-training corpus and an extended context window. Our experiments on four public datasets quantify the distinct contributions of our framework's components: on its own, data augmentation consistently improves the baseline method, providing substantial performance gains of up to 26.66%; incorporating the advanced encoder provides an additional lift of 2.21% to 11.25%. This synergy culminates in a fully optimized framework with maximum gains of up to 28.59% on $F_1$ score and 28.9% on $F_2$ score over the established baseline, decisively outperforming ten established baselines from three dominant paradigms. This work contributes a pragmatic and scalable methodology to overcome the data scarcity bottleneck, paving the way for broader industrial adoption of data-driven requirement-to-code traceability.
- Abstract(参考訳): 産業システムの品質と安全性に不可欠な自動コードトレーサビリティリンクリカバリは,ラベル付きデータの不足によって著しく妨げられている。
このボトルネックに対処するために,大規模言語モデル(LLM)によるデータ拡張を高度なエンコーダと統合する相乗的フレームワークを提案し,検証する。
まず、双方向およびゼロ/フェーショットプロンプト戦略の体系的評価により最適化されたデータ拡張が極めて効果的であることを示す。
拡張データに基づいて、より広範な事前学習コーパスと拡張コンテキストウィンドウによって区別されるエンコーダを組み込むことにより、最先端の事前学習言語モデルに基づく確立された手法をさらに強化する。
4つの公開データセットに関する我々の実験は、我々のフレームワークのコンポーネントの異なるコントリビューションを定量化しています。データ拡張は、ベースラインメソッドを一貫して改善し、パフォーマンスが26.66%まで向上し、高度なエンコーダを組み込むことで、さらに2.21%から11.25%に向上します。
このシナジーは、F_1$スコアで最大28.59%、F_2$スコアで最大28.9%の最適化されたフレームワークで頂点に達し、3つの支配的パラダイムから確立された10のベースラインを決定的に上回っている。
この作業は、データ不足のボトルネックを克服し、データ駆動の要求-コードのトレーサビリティを産業的に広く採用するための、実用的でスケーラブルな方法論に寄与する。
関連論文リスト
- On the Effectiveness of Training Data Optimization for LLM-based Code Generation: An Empirical Study [14.089680223493842]
データ合成は、機能的正しさを改善し、コードの臭いを減らすための最も効果的なテクニックである。
データとデータを組み合わせることで、全体的なパフォーマンスが最も高い。
この作業は、トレーニングデータ最適化と組み合わせ戦略の体系的な理解に向けた第一歩です。
論文 参考訳(メタデータ) (2025-12-31T02:30:05Z) - A Systematic Framework for Enterprise Knowledge Retrieval: Leveraging LLM-Generated Metadata to Enhance RAG Systems [0.0]
本研究では,大規模言語モデル(LLM)を用いたメタデータ強化のための体系的フレームワークを提案する。
提案手法では,文書セグメントに意味のあるメタデータを動的に生成する包括的,構造化されたパイプラインを用いる。
論文 参考訳(メタデータ) (2025-12-05T04:05:06Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents [0.32839375042867835]
textitGrowthHackerは、大規模な実世界のデータセットのエージェントおよびベースラインメソッドによるベンチマークである。
textittwo_agentフレームワークを開発し、最適化効率を保ちながらシステムの複雑さを低減する。
その結果、2_agentフレームワークは100%の信頼性と106.7%の平均的な改善を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-02T04:47:17Z) - Collaborative Unlabeled Data Optimization [16.653360957716647]
本稿では,ラベルなしデータの有用性を最大化するための新しいデータ中心パラダイムを開拓する。
ラベルのないデータを配布し、公開可能なタスクに依存しないモデルを活用することで、CoOptはスケーラブルで再利用可能な、持続可能なトレーニングパイプラインを促進します。
論文 参考訳(メタデータ) (2025-05-20T09:21:40Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [12.736045604858738]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。
データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-27T07:38:39Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。
RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。
ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。
我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。