論文の概要: Synthetic Data Generation for Training Diversified Commonsense Reasoning Models
- arxiv url: http://arxiv.org/abs/2603.18361v1
- Date: Wed, 18 Mar 2026 23:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.885783
- Title: Synthetic Data Generation for Training Diversified Commonsense Reasoning Models
- Title(参考訳): 多様なコモンセンス推論モデルの学習のための合成データ生成
- Authors: Tianhui Zhang, Bei Peng, Danushka Bollegala,
- Abstract要約: 分散化(GCR)のための最初の合成データセットCommonSynを作成するための2段階手法を提案する。
合成データに基づいて微調整したモデルでは,バニラモデルと比較して生成の多様性と品質が両立している。
- 参考スコア(独自算出の注目度): 23.60214903525184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational agents are required to respond to their users not only with high quality (i.e. commonsense bearing) responses, but also considering multiple plausible alternative scenarios, reflecting the diversity in their responses. Despite the growing need to train diverse commonsense generators, the progress of this line of work has been significantly hindered by the lack of large-scale high-quality diverse commonsense training datasets. Due to the high annotation costs, existing Generative Commonsense Reasoning (GCR) datasets are created using a small number of human annotators, covering only a narrow set of commonsense scenarios. To address this training resource gap, we propose a two-stage method to create the first-ever synthetic dataset CommonSyn for diversified (GCR). The model fine-tuned on our synthetic data jointly increase both generation diversity and quality compared with vanilla models and the model fine-tuned on human-crafted dataset across different size Large Language Models (LLMs)
- Abstract(参考訳): 会話エージェントは、高品質な応答(つまりコモンセンス応答)だけでなく、応答の多様性を反映して複数の可能な代替シナリオも検討する必要がある。
多様なコモンセンス・ジェネレータを訓練する必要性が高まっているにもかかわらず、この一連の作業の進行は、大規模で高品質なコモンセンス・トレーニングデータセットの欠如によって著しく妨げられている。
アノテーションのコストが高いため、既存のGenerative Commonsense Reasoning (GCR)データセットは、少数の人間のアノテーションを使用して作成され、限られた一連のコモンセンスシナリオのみをカバーする。
このトレーニングリソースギャップに対処するため,多角化(GCR)のための最初の合成データセットCommonSynを作成するための2段階手法を提案する。
合成データに基づいて微調整されたモデルは、バニラモデルと比較して生成の多様性と品質を両立させるとともに、異なる大きさの大規模言語モデル(LLM)を用いた人造データセット上で微調整されるモデルである。
関連論文リスト
- R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model? [22.68584544498708]
本稿では,MLLMのための高品質,多様性,挑戦的なマルチモーダルデータを合成するための,新しい汎用的アプローチであるCADSを提案する。
CADSは2つの周期的位相(CAD-Generate)とCAD-Judge(CAD-Judge)で動作する。
論文 参考訳(メタデータ) (2026-02-03T09:26:32Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。
いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。
本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文 参考訳(メタデータ) (2025-02-03T00:12:40Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQA(SK-VQA)は,200万以上の視覚的質問応答対を含む大規模合成マルチモーダルデータセットである。
人間の評価を通じて,生成した質問応答対の質と文脈的関連性を確認する。
以上の結果から,SK-VQAでトレーニングしたモデルは,コンテキスト対応VQAとマルチモーダルRAG設定の両方において拡張された一般化を示した。
論文 参考訳(メタデータ) (2024-06-28T01:14:43Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。