論文の概要: Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level Foveation
- arxiv url: http://arxiv.org/abs/2507.23440v1
- Date: Thu, 31 Jul 2025 11:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.618809
- Title: Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level Foveation
- Title(参考訳): 自己表現:多層展開による教師なしテキストからの合成命令の多様性向上と難易度向上
- Authors: Mingzhe Li, Xin Lu, Yanyan Zhao,
- Abstract要約: 命令追従能力を持つ大規模言語モデル(LLM)は、目覚ましい問題解決能力を示している。
従来の手法は、データアノテーションに対する人間の努力に大きく依存している。
命令合成のための革新的なLCM駆動方式であるSelf-Foveateを提案する。
- 参考スコア(独自算出の注目度): 19.913806733495488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with instruction following capabilities have demonstrated impressive problem-solving abilities. While synthesizing instructional data from unsupervised text has become a common approach for training such models, conventional methods rely heavily on human effort for data annotation. Although existing automated synthesis paradigms have alleviated this constraint, they still exhibit significant limitations in ensuring adequate diversity and difficulty of synthesized instructions. To address these challenges, we propose Self-Foveate, an innovative LLM-driven method for instruction synthesis. This approach introduces a "Micro-Scatter-Macro" multi-level foveation methodology that effectively guides the LLM to deeply excavate fine-grained information embedded in unsupervised text, thereby enhancing both the diversity and difficulty of synthesized instructions. Comprehensive experiments across multiple unsupervised corpora and diverse model architectures validate the effectiveness and superiority of our proposed method. We publicly release our data and codes: https://github.com/Mubuky/Self-Foveate
- Abstract(参考訳): 命令追従能力を持つ大規模言語モデル(LLM)は、目覚ましい問題解決能力を示している。
教師なしテキストから命令データを合成することは、そのようなモデルを訓練するための一般的なアプローチとなっているが、従来の手法はデータアノテーションに対する人間の努力に大きく依存している。
既存の自動合成パラダイムは、この制約を緩和したものの、十分な多様性と合成命令の難しさを保証するために、かなりの制限を課している。
これらの課題に対処するため、我々は、命令合成のための革新的なLCM駆動方式であるSelf-Foveateを提案する。
このアプローチでは,LLMを効果的に誘導し,教師なしテキストに埋め込まれたきめ細かい情報を深く掘り起こし,合成命令の多様性と難易度を両立させる「マイクロ散乱マクロ」多層ファベーション手法を導入する。
複数の教師なしコーパスと多種多様なモデルアーキテクチャの総合的な実験により,提案手法の有効性と優位性を検証した。
https://github.com/Mubuky/Self-Foveate
関連論文リスト
- MentalMAC: Enhancing Large Language Models for Detecting Mental Manipulation via Multi-Task Anti-Curriculum Distillation [12.845142027768881]
精神的な操作は微妙だが広範囲にわたる心理的虐待であり、精神的な健康に深刻な脅威をもたらす。
MentalMACはマルチタスクの反キュリキュラム蒸留法であり、マルチターン対話におけるメンタル操作の検出能力を高める。
i)進化的操作と音声行動理論に基づく教師なしデータ拡張手法であるEvoSA,(ii)教師モデルによるマルチタスク監視,(iii)複雑なタスクから単純なタスクへの進化的知識の蒸留。
論文 参考訳(メタデータ) (2025-05-21T08:34:06Z) - Enhancing Complex Instruction Following for Large Language Models with Mixture-of-Contexts Fine-tuning [13.56631686493347]
訓練後の大規模言語モデル(LLM)は、一貫して複雑な命令に従うのに苦労する可能性がある。
本稿では,逐次的に構造化された入力命令を,サブコンテキストを含む複数の並列命令に変換することを提案する。
MISOは、SFTの有効性を高めるために、全体的な命令出力アライメントと個々のサブコンテキストの影響を共同で検討する混合コンテキストパラダイムを導入している。
論文 参考訳(メタデータ) (2025-05-17T09:13:47Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。