論文の概要: From Sub-Ability Diagnosis to Human-Aligned Generation: Bridging the Gap for Text Length Control via MARKERGEN
- arxiv url: http://arxiv.org/abs/2502.13544v1
- Date: Wed, 19 Feb 2025 08:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 20:12:09.900978
- Title: From Sub-Ability Diagnosis to Human-Aligned Generation: Bridging the Gap for Text Length Control via MARKERGEN
- Title(参考訳): サブ能力診断からヒューマン・アライン・ジェネレーションへ:MARKERGENによるテキスト長制御のためのギャップをブリッジする
- Authors: Peiwen Yuan, Chuyi Tan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Jiayi Shi, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: MarkerGenは、長さ制御可能なテキスト生成を改善する単純なyet効率のプラグアンドプレイアプローチである。
テストの結果、MarkerGenは様々な設定でLCTGを大幅に改善し、優れた有効性と一般化性を示した。
- 参考スコア(独自算出の注目度): 19.673388630963807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid progress of large language models (LLMs), their length-controllable text generation (LCTG) ability remains below expectations, posing a major limitation for practical applications. Existing methods mainly focus on end-to-end training to reinforce adherence to length constraints. However, the lack of decomposition and targeted enhancement of LCTG sub-abilities restricts further progress.To bridge this gap, we conduct a bottom-up decomposition of LCTG sub-abilities with human patterns as reference and perform a detailed error analysis.On this basis, we propose MarkerGen, a simple-yet-effective plug-and-play approach that:(1) mitigates LLM fundamental deficiencies via external tool integration;(2) conducts explicit length modeling with dynamically inserted markers;(3) employs a three-stage generation scheme to better align length constraints while maintaining content quality.Comprehensive experiments demonstrate that MarkerGen significantly improves LCTG across various settings, exhibiting outstanding effectiveness and generalizability.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、その長さ制御可能なテキスト生成能力(LCTG)は期待以下であり、実用的な応用には大きな限界がある。
既存の手法は主に、長さ制約への固執を強化するためにエンドツーエンドのトレーニングに重点を置いている。
しかし、分解の欠如とLCTGサブ機能の強化はさらなる進歩を阻害する。このギャップを埋めるため、人間のパターンを基準としてLCTGサブ機能のボトムアップ分解を行い、詳細なエラー解析を行う。本手法では、(1)外部ツール統合によるLCMの基本的な欠陥を緩和する、(2)動的に挿入されたマーカーを用いた明示的な長さモデリングを行う、(3)コンテンツ品質を維持しながら長所制約を整合させる3段階生成手法を用いて、MarkerGenがLCTGを著しく改善し、優れた性能と汎用性を発揮できる、という3段階生成手法を提案する。
関連論文リスト
- The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs [40.35884943268004]
非常に長いシーケンスでは、より大きくスパースなモデルの方が小さくて密度の高いモデルよりも好ましいことを示す。
タスクやフェーズをまたいでベストを尽くす明確な戦略は存在しません。
本研究は, 厳密な注意を喚起するための新しいスケーリング法を導入し, 検証し, 実験範囲を超えている可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-24T17:39:25Z) - From Token to Line: Enhancing Code Generation with a Long-Term Perspective [46.98293675904081]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。
本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-10T04:03:25Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information [76.26257306813899]
学術論文やリポジトリレベルのコード生成には,長文生成が不可欠だ。
選好学習と結果管理を併用する既存の手法は、拡張された文脈に対して詳細なフィードバックを提供するのに失敗することが多い。
プロセスの監督を取り入れた長文生成の促進を提案する。
論文 参考訳(メタデータ) (2025-02-04T08:25:17Z) - Zero-Shot Strategies for Length-Controllable Summarization [56.15356055672189]
大規模言語モデル(LLM)は、特にゼロショット設定において、正確な長さ制御に苦しむ。
本研究では, LLMの長さ制御能力を複数の尺度で評価し, 制御性向上のための実用的手法を提案する。
LLaMA 3 を用いて行った実験では,測定値間の長さの密着性の違いが明らかになり,モデル固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-12-31T02:53:27Z) - HELPNet: Hierarchical Perturbations Consistency and Entropy-guided Ensemble for Scribble Supervised Medical Image Segmentation [4.034121387622003]
本稿では,新しいスクリブルベースの弱教師付きセグメンテーションフレームワークHELPNetを提案する。
HELPNetはアノテーション効率とセグメンテーション性能のギャップを埋めるために3つのモジュールを統合する。
HELPNetは、スクリブルベースの弱教師付きセグメンテーションの最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-25T01:52:01Z) - LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective [125.00228936051657]
本稿では,タスク関連機能を適応的に生成しながら,タスク固有のパラメータ記憶を不要にする新しいフレームワークNTK-CLを紹介する。
最適化可能なパラメータを適切な正規化で微調整することにより、NTK-CLは確立されたPEFT-CLベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-24T09:30:04Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text
Generation [70.77243918587321]
複数の側面で生成されたテキストを制御するマルチアスペクト制御可能なテキスト生成が注目されている。
干渉に対する理論的な下界を提供し、プレフィックスが挿入される層の数に応じて干渉が増加することを経験的に見出した。
トレーニング可能なゲートを用いてプレフィックスの介入を正規化し、増大する干渉を抑制することを提案する。
論文 参考訳(メタデータ) (2022-12-19T11:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。