論文の概要: From Sub-Ability Diagnosis to Human-Aligned Generation: Bridging the Gap for Text Length Control via MARKERGEN
- arxiv url: http://arxiv.org/abs/2502.13544v2
- Date: Fri, 21 Feb 2025 07:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:50:15.009470
- Title: From Sub-Ability Diagnosis to Human-Aligned Generation: Bridging the Gap for Text Length Control via MARKERGEN
- Title(参考訳): サブ能力診断からヒューマン・アライン・ジェネレーションへ:MARKERGENによるテキスト長制御のためのギャップをブリッジする
- Authors: Peiwen Yuan, Chuyi Tan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: MarkerGenは、長さ制御可能なテキスト生成を改善する単純なyet効率のプラグアンドプレイアプローチである。
テストの結果、MarkerGenは様々な設定でLCTGを大幅に改善し、優れた有効性と一般化性を示した。
- 参考スコア(独自算出の注目度): 19.673388630963807
- License:
- Abstract: Despite the rapid progress of large language models (LLMs), their length-controllable text generation (LCTG) ability remains below expectations, posing a major limitation for practical applications. Existing methods mainly focus on end-to-end training to reinforce adherence to length constraints. However, the lack of decomposition and targeted enhancement of LCTG sub-abilities restricts further progress. To bridge this gap, we conduct a bottom-up decomposition of LCTG sub-abilities with human patterns as reference and perform a detailed error analysis. On this basis, we propose MarkerGen, a simple-yet-effective plug-and-play approach that:(1) mitigates LLM fundamental deficiencies via external tool integration;(2) conducts explicit length modeling with dynamically inserted markers;(3) employs a three-stage generation scheme to better align length constraints while maintaining content quality. Comprehensive experiments demonstrate that MarkerGen significantly improves LCTG across various settings, exhibiting outstanding effectiveness and generalizability.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、その長さ制御可能なテキスト生成能力(LCTG)は期待以下であり、実用的な応用には大きな限界がある。
既存の手法は主に、長さ制約への固執を強化するためにエンドツーエンドのトレーニングに重点を置いている。
しかし、分解の欠如とLCTGサブ能力の強化により、さらなる進歩が制限される。
このギャップを埋めるために,人間のパターンを基準としてLCTGサブ機能のボトムアップ分解を行い,詳細な誤り解析を行う。
そこで本研究では,(1)外部ツール統合によるLCMの基本欠陥の軽減,(2)動的に挿入されたマーカーを用いた明示的な長さモデリング,(3)コンテンツ品質を維持しながら長さ制約の整合性を向上する3段階生成方式を提案する。
総合的な実験により、MarkerGenは様々な設定でLCTGを大幅に改善し、優れた効果と一般化性を示した。
関連論文リスト
- Zero-Shot Strategies for Length-Controllable Summarization [56.15356055672189]
大規模言語モデル(LLM)は、特にゼロショット設定において、正確な長さ制御に苦しむ。
本研究では, LLMの長さ制御能力を複数の尺度で評価し, 制御性向上のための実用的手法を提案する。
LLaMA 3 を用いて行った実験では,測定値間の長さの密着性の違いが明らかになり,モデル固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-12-31T02:53:27Z) - HELPNet: Hierarchical Perturbations Consistency and Entropy-guided Ensemble for Scribble Supervised Medical Image Segmentation [4.034121387622003]
本稿では,新しいスクリブルベースの弱教師付きセグメンテーションフレームワークHELPNetを提案する。
HELPNetはアノテーション効率とセグメンテーション性能のギャップを埋めるために3つのモジュールを統合する。
HELPNetは、スクリブルベースの弱教師付きセグメンテーションの最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-25T01:52:01Z) - LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Controllable Textual Inversion for Personalized Text-to-Image Generation [24.18758951295929]
テキスト・インバージョン(TI)は、ユーザ定義、未確認、ロングテールの概念トークンを含むプロンプトの生成をパーソナライズする効果的な手法として提案されている。
本研究では、上記の問題を全て解決し、堅牢で、データ効率が高く、使いやすいフレームワークを提供するために、制御可能なテキスト・インバージョン(COTI)と呼ばれる高機能なTIを提案する。
論文 参考訳(メタデータ) (2023-04-11T14:56:44Z) - An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text
Generation [70.77243918587321]
複数の側面で生成されたテキストを制御するマルチアスペクト制御可能なテキスト生成が注目されている。
干渉に対する理論的な下界を提供し、プレフィックスが挿入される層の数に応じて干渉が増加することを経験的に見出した。
トレーニング可能なゲートを用いてプレフィックスの介入を正規化し、増大する干渉を抑制することを提案する。
論文 参考訳(メタデータ) (2022-12-19T11:53:59Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。