論文の概要: QAQ: Bidirectional Semantic Coherence for Selecting High-Quality Synthetic Code Instructions
- arxiv url: http://arxiv.org/abs/2603.12165v1
- Date: Thu, 12 Mar 2026 17:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.2396
- Title: QAQ: Bidirectional Semantic Coherence for Selecting High-Quality Synthetic Code Instructions
- Title(参考訳): QAQ: 高品質なコード命令を選択するための双方向セマンティックコヒーレンス
- Authors: Jiayin Lei, Ming Ma, Yunxi Duan, Chenxi Li, Tianming Yang,
- Abstract要約: 本稿では,データ品質を逆方向から評価するデータ選択フレームワークQAQを提案する。
本稿では,RMI(Reverse Mutual Information)を定義し,回答に条件付きクエリに関する情報取得を定量化する。
本手法は, 合成データキュレーションにおける双方向意味コヒーレンスの重要性を強調した。
- 参考スコア(独自算出の注目度): 8.723143576340632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has become essential for training code generation models, yet it introduces significant noise and hallucinations that are difficult to detect with current metrics. Existing data selection methods like Instruction-Following Difficulty (IFD) typically assess how hard a model generates an answer given a query ($A|Q$). However, this metric is ambiguous on noisy synthetic data, where low probability can distinguish between intrinsic task complexity and model-generated hallucinations. Here, we propose QAQ, a novel data selection framework that evaluates data quality from the reverse direction: how well can the answer predict the query ($Q|A$)? We define Reverse Mutual Information (RMI) to quantify the information gain about the query conditioned on the answer. Our analyses reveal that both extremes of RMI signal quality issues: low RMI indicates semantic misalignment, while excessively high RMI may contain defect patterns that LLMs easily recognize. Furthermore, we introduce a selection strategy based on the disagreement between strong and weak models to identify samples that are valid yet challenging. Experiments on the WarriorCoder dataset demonstrate that selecting just 25% of data using stratified RMI achieves comparable performance to full-data training, significantly outperforming existing data selection methods. Our approach highlights the importance of bidirectional semantic coherence in synthetic data curation, offering a scalable pathway to reduce computational costs without sacrificing model capability.
- Abstract(参考訳): 合成データは、コード生成モデルのトレーニングに欠かせないものになっていますが、現在のメトリクスで検出するのが難しい、大きなノイズと幻覚を導入しています。
Instruction-Following Difficulty (IFD) のような既存のデータ選択手法は、通常、クエリー(A|Q$)が与えられた答えを生成するのがどれだけ難しいかを評価する。
しかし、この計量は、本質的なタスク複雑性とモデル生成幻覚とを区別できる低確率の合成データに対して曖昧である。
本稿では,データ品質を逆方向から評価する新しいデータ選択フレームワークQAQを提案する。
本稿では,RMI(Reverse Mutual Information)を定義し,回答に条件付きクエリに関する情報取得を定量化する。
我々の分析では、RMI信号品質の両極端は、低RMIは意味的不一致を示し、過度に高いRMIはLLMが容易に認識できる欠陥パターンを含む可能性がある。
さらに,強いモデルと弱いモデルとの相違に基づく選択戦略を導入し,有効なサンプルを同定する。
WarriorCoderデータセットの実験では、階層化されたRMIを使用してデータの25%だけを選択することで、フルデータトレーニングに匹敵するパフォーマンスを実現し、既存のデータ選択方法よりも大幅に優れています。
提案手法は,合成データキュレーションにおける双方向セマンティック・コヒーレンスの重要性を強調し,モデル性能を犠牲にすることなく計算コストを削減できるスケーラブルな経路を提供する。
関連論文リスト
- SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation [3.2150327776278576]
本稿では,オブジェクト検出タスクのデータ品質を評価するために,Synthetic dataset Quality Metric (SDQM)を提案する。
実験の結果,SDQMは,主物体検出モデルYOLOv11の平均精度 (mAP) と強い相関を示した。
データセットの品質向上のための実用的な洞察を提供し、コストのかかる反復的なトレーニングの必要性を最小限にする。
論文 参考訳(メタデータ) (2025-10-08T03:01:26Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Quality In / Quality Out: Data quality more relevant than model choice in anomaly detection with the UGR'16 [0.29998889086656577]
ベンチマークデータセットの比較的小さな変更は、考慮された特定のML手法よりも、モデルパフォーマンスに著しく影響することを示します。
また、不正確なラベル付けの結果、測定されたモデル性能が不確かであることも示す。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。