論文の概要: LARFT: Closing the Cognition-Action Gap for Length Instruction Following in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.19255v1
- Date: Wed, 25 Feb 2026 15:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.786265
- Title: LARFT: Closing the Cognition-Action Gap for Length Instruction Following in Large Language Models
- Title(参考訳): LARFT:大規模言語モデルにおける長さ指示に対する認知反応ギャップの閉鎖
- Authors: Wei Zhang, Lintong Du, Yuanhe Zhang, Zhenhong Zhou, Kun Wang, Li Sun, Sen Su,
- Abstract要約: LARFT(Length-Aware Reinforcement Fine-Tuning)を提案する。
LARFTは、長さ指向強化学習と後眼長認識を統合している。
実験により、LARFTは既存のベースラインより優れており、ベンチマーク後の3つの長さの命令に対して+20.92ポイントの平均的な改善が達成されている。
- 参考スコア(独自算出の注目度): 13.817055649196107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the strong performance of Large Language Models (LLMs) on complex instruction-following tasks, precise control of output length remains a persistent challenge. Existing methods primarily attempt to enforce length constraints by externally imposing length signals or optimization objectives, while largely overlooking the underlying limitation: the model's intrinsic deficit in length cognition. To address this, we propose LARFT (Length-Aware Reinforcement Fine-Tuning), a training framework that aligns the model's length cognition with its action. Specifically, LARFT integrates length-oriented reinforcement learning with a hindsight length awareness. By transforming on-policy data into hindsight self-awareness tasks where the model learns to identify the actual length of its own generation, LARFT jointly optimizes the model's internal representation of length information and refines its policy to satisfy length constraints, thereby achieving precise and reliable length instruction following. Extensive experiments across four base models demonstrate that LARFT outperforms existing baselines, achieving an average improvement of +20.92 points across three length instruction following benchmarks with only a marginal decline of -1.45 points on four general capability benchmarks.
- Abstract(参考訳): 複雑な命令追従タスクにおけるLarge Language Models (LLMs) の強い性能にもかかわらず、出力長の正確な制御は永続的な課題である。
既存の手法は、主に長さの信号や最適化の目的を外部に課すことによって長さの制約を強制しようとするが、モデル固有の長の認識能力の欠如を主に見落としている。
そこで本研究では,LARFT(Length-Aware Reinforcement Fine-Tuning)を提案する。
具体的には、LARFTは長さ指向強化学習と後視長認識を統合している。
LARFTは、オンラインデータを自己認識タスクに変換することで、モデルが自己生成の実際の長さを特定することを学習し、モデルの内部的な長さ情報の表現を最適化し、そのポリシーを洗練して長さ制約を満たすことにより、正確で信頼性の高い長さ指示を実現する。
4つのベースモデルにわたる大規模な実験により、LARFTは既存のベースラインより優れており、4つの一般能力ベンチマークで-1.45ポイントの差しか無く、3つのトレーニングの後に平均で+20.92ポイントを達成している。
関連論文リスト
- Plan-and-Write: Structure-Guided Length Control for LLMs without Model Retraining [2.168162018395079]
本稿では,モデルの再トレーニングを伴わずに正確な長さ制御を可能にする,迅速な工学手法を提案する。
構造誘導型アプローチでは、プロンプト内に意図的な計画と単語カウント機構を実装し、モデルに指定された長さ制約を注意深く追跡し、従うように促す。
当社のアプローチは、正確な長さ制御を必要とするアプリケーションに対して、即時にデプロイ可能なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-11-03T18:10:42Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Long-Short Alignment for Effective Long-Context Modeling in LLMs [32.13785291956956]
大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。
長さの一般化 -- トレーニング中に見られるものよりも長いシーケンスに一般化する能力 -- は、古典的で基本的な問題である。
textbflong-shortアライメント -- 長さの異なるシーケンス間の出力分布の一貫性 -- の重要な役割を強調します。
論文 参考訳(メタデータ) (2025-06-13T13:25:39Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。