論文の概要: V-SYNTHESIS: Task-Agnostic Synthesis of Consistent and Diverse In-Context Demonstrations from Scratch via V-Entropy
- arxiv url: http://arxiv.org/abs/2506.23149v1
- Date: Sun, 29 Jun 2025 08:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.745868
- Title: V-SYNTHESIS: Task-Agnostic Synthesis of Consistent and Diverse In-Context Demonstrations from Scratch via V-Entropy
- Title(参考訳): V-SYNTHESIS:V-エントロピーによるスクラッチからの連続・多変量インコンテクストのタスク非依存合成
- Authors: Dingzirui Wang, Xuanliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che, Yang Deng,
- Abstract要約: 本稿では、任意のタスクに対して、スクラッチからデモを合成することに焦点を当てる。
ゼロから合成する際の大きな課題は、ターゲットタスクとの整合性を確保することである。
まず,より高性能で計算コストの低いVスコア(V-Score)という整合性指標を提案する。
次に、比例サンプリングにV-Scoreを活用するV-Synthesisを導入し、合成されたデモの高一貫性と多様性の両立を保証する。
- 参考スコア(独自算出の注目度): 48.2949050799998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High labeling cost for in-context learning (ICL) demonstrations motivates using large language models (LLMs) for synthesis to reduce overhead. However, existing synthesis methods are mainly task-specific or rely on pre-existing demonstrations. So this paper focuses on synthesizing demonstrations from scratch for arbitrary tasks. A major challenge in synthesizing from scratch is ensuring consistency with the target task, as the lack of labeling guidance could lead to synthesis bias. We first propose a consistency metric called V-Score, which has higher performance and lower computation cost compared with the metrics based on grams or embedding vectors. Furthermore, we introduce V-Synthesis, which leverages V-Score for proportional sampling to ensure both high consistency and diversity of synthesized demonstrations. Experimental results demonstrate that V-Synthesis yields an average performance improvement of 2.0% compared to existing synthesis methods confirming the effectiveness of V-Synthesis.
- Abstract(参考訳): In-context Learning (ICL) デモの高ラベリングコストは、大きな言語モデル(LLM)を使用してオーバヘッドを低減する。
しかし、既存の合成法は主にタスク固有のものであり、既存の実演に依存している。
そこで本研究では,任意のタスクに対して,スクラッチからデモを合成することに焦点を当てる。
スクラッチから合成する際の大きな課題は、ラベリングガイダンスの欠如が合成バイアスにつながるため、ターゲットタスクとの整合性を確保することである。
まず,V-Scoreと呼ばれる一貫性尺度を提案する。これは,グラムや埋め込みベクトルに基づく測定値と比較して,高い性能と低い計算コストを持つ。
さらに,V-Scoreを比例サンプリングに利用し,高一貫性と多彩さを保証できるV-Synthesisを導入する。
実験により, V-Synthesisは, V-Synthesisの有効性を確認する既存の合成法と比較して平均性能が2.0%向上することが示された。
関連論文リスト
- PROVSYN: Synthesizing Provenance Graphs for Data Augmentation in Intrusion Detection Systems [10.160654114774513]
プロヴァンスグラフ解析は侵入検知に重要な役割を果たし、特にAPT(Advanced Persistent Threats)に対して重要である。
ProVSYNは,3相パイプラインを通じてプロファイランスグラフを合成する自動フレームワークである。
ProVSYNは高忠実度グラフを生成し,有効データ拡張による検出性能の向上を図っている。
論文 参考訳(メタデータ) (2025-06-06T16:41:17Z) - SynDec: A Synthesize-then-Decode Approach for Arbitrary Textual Style Transfer via Large Language Models [17.194007856776963]
大規模言語モデル(LLM)は、テキストスタイルの転送において支配的な力として浮上している。
本稿では,高品質なプロンプトを自動的に合成するSynDecアプローチを提案する。
我々は広範囲な実験を行い、SynDecが既存のLLM法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-19T08:03:38Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Contrastive Learning of Sentence Embeddings from Scratch [26.002876719243464]
文の埋め込みを合成データで訓練するコントラスト学習フレームワークであるSynCSEを提案する。
具体的には、大規模な言語モデルを用いて、コントラスト学習に必要なデータサンプルを合成する。
SynCSE-partialとSynCSE-scratchの両方が教師なしベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-05-24T11:56:21Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Parallel Pre-trained Transformers (PPT) for Synthetic Data-based
Instance Segmentation [34.10059933228908]
合成データに基づくインスタンスタスクを実現するために,並列事前学習トランスフォーマ(PPT)フレームワークを提案する。
Swin-BベースのCBNet V2、SwinLベースのCBNet V2、Swin-LベースのUniformerが並列機能学習に使われている。
CVPR2022 AVA Vision and Autonomy Challengeでは65.155%のmAPでランクインした。
論文 参考訳(メタデータ) (2022-06-22T05:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。