論文の概要: TAG-INSTRUCT: Controlled Instruction Complexity Enhancement through Structure-based Augmentation
- arxiv url: http://arxiv.org/abs/2505.18557v1
- Date: Sat, 24 May 2025 06:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.506327
- Title: TAG-INSTRUCT: Controlled Instruction Complexity Enhancement through Structure-based Augmentation
- Title(参考訳): TAG-INSTRUCT:構造に基づく拡張による制御された命令複雑度向上
- Authors: He Zhu, Zhiwen Ruan, Junyou Su, Xingwei He, Wenjia Zhang, Yun Chen, Guanhua Chen,
- Abstract要約: 本稿では,構造化セマンティック圧縮と制御難易度増大による命令複雑性を向上させる新しいフレームワークであるTAG-INSTRUCTを提案する。
解析の結果,TAG-INSTRUCTは異なる命令合成フレームワーク間の制御性と安定性に優れることがわかった。
- 参考スコア(独自算出の注目度): 10.927593602112259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality instruction data is crucial for developing large language models (LLMs), yet existing approaches struggle to effectively control instruction complexity. We present TAG-INSTRUCT, a novel framework that enhances instruction complexity through structured semantic compression and controlled difficulty augmentation. Unlike previous prompt-based methods operating on raw text, TAG-INSTRUCT compresses instructions into a compact tag space and systematically enhances complexity through RL-guided tag expansion. Through extensive experiments, we show that TAG-INSTRUCT outperforms existing instruction complexity augmentation approaches. Our analysis reveals that operating in tag space provides superior controllability and stability across different instruction synthesis frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発には高品質な命令データが必要であるが、既存のアプローチは命令の複雑さを効果的に制御するのに苦労している。
本稿では,構造化セマンティック圧縮と制御難易度増大による命令複雑性を向上させる新しいフレームワークであるTAG-INSTRUCTを提案する。
原文で動作する従来のプロンプトベースのメソッドとは異なり、TAG-INSTRUCTは命令をコンパクトなタグ空間に圧縮し、RL誘導タグ拡張による複雑性を体系的に強化する。
広範な実験により,TAG-INSTRUCTは既存の命令複雑性向上手法よりも優れていることが示された。
解析の結果,タグ空間での操作は,異なる命令合成フレームワーク間の制御性と安定性に優れることがわかった。
関連論文リスト
- AIR: Complex Instruction Generation via Automatic Iterative Refinement [29.639832268719363]
複雑な命令を生成するための現在のアプローチは、しばしば現在の命令要求とは無関係である。
本稿では,制約付き複雑な命令を生成するための,新しい反復修正フレームワークを提案する。
10Kの複雑な命令でAIR-10Kデータセットを構築し、我々のアプローチで生成された命令は、複雑な命令に従うモデルの能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-25T02:39:57Z) - MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。
提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-02-17T08:12:49Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Constraint Back-translation Improves Complex Instruction Following of Large Language Models [55.60192044049083]
大きな言語モデル(LLM)は、フォーマットや長さなどの複雑な制約のある命令に従うのに苦労しています。
従来の研究は、高度なLCMに複雑な命令を供給し、複雑な命令応答対を後処理する。
本稿では,新しいデータ生成手法である制約バックトランスレーションを提案する。
論文 参考訳(メタデータ) (2024-10-31T17:42:26Z) - TaCIE: Enhancing Instruction Comprehension in Large Language Models through Task-Centred Instruction Evolution [27.949846287419998]
TaCIEは、単に進化したシード命令から、よりダイナミックで包括的な要素の組み合わせへと、命令の進化を再定義する。
複数の領域にまたがってTaCIEを適用することで、これらの進化した命令で微調整されたLLMは、従来の手法で調整された命令よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-09-18T10:06:28Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - A Preliminary Study of the Intrinsic Relationship between Complexity and
Alignment [90.7443414448245]
制御可能な方法で命令の複雑さを体系的に強化するツリーインストラクションを提案する。
命令のセマンティックツリーに指定された数のノードを追加することで、新しい命令データを得るだけでなく、修正された命令の難易度を制御することもできる。
論文 参考訳(メタデータ) (2023-08-10T16:58:51Z) - Exploring Format Consistency for Instruction Tuning [79.0698403613366]
本研究では,Unified Instruction Tuning (UIT) というフレームワークを提案する。
UITはOpenAI APIを呼び出し、PromptSource、FLAN、CrossFitといったさまざまなインストラクションチューニングデータセット間で自動フォーマット転送を行う。
提案手法では,T5-LM-xlにおける未知命令の一般化性能の向上と,自動フォーマット転送のノイズを低減するために,新しいパープレキシティに基づくデノナイジング手法を提案する。
論文 参考訳(メタデータ) (2023-07-28T12:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。