論文の概要: Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs
- arxiv url: http://arxiv.org/abs/2502.11525v2
- Date: Mon, 19 May 2025 13:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.463902
- Title: Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs
- Title(参考訳): シングルタスクを超えて: LLMのためのロバストなマルチタスク長一般化
- Authors: Yi Hu, Shijia Kang, Haotong Yang, Haotian Xu, Muhan Zhang,
- Abstract要約: マルチタスク設定における長さの一般化について検討し、ロバストなクロスタスク長の一般化を可能にする最初のフレームワークとしてメタルール追従ファインチューニング(Meta-RFFT)を提案する。
多数のタスクやインスタンスをトレーニングした後、我々のモデルは、最小限の微調整やワンショットプロンプトで、目に見えないタスクに対して驚くほどの長さの一般化能力を達成する。
- 参考スコア(独自算出の注目度): 23.958458849973248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Length generalization, the ability to solve problems longer than those seen during training, remains a critical challenge for large language models (LLMs). Previous work modifies positional encodings (PEs) and data formats to improve length generalization on specific symbolic tasks such as addition and sorting. However, these approaches are fundamentally limited to special tasks, often degrading general language performance. Furthermore, they are typically evaluated on small transformers trained from scratch on single tasks and can cause performance drop when applied during post-training stage of practical LLMs with general capabilities. Hu et al., (2024) proposed Rule-Following Fine-Tuning (RFFT) to improve length generalization in the post-training stage of LLMs. Despite its compatibility with practical models and strong performance, RFFT is proposed for single tasks too, requiring re-training for each individual task with extensive examples. In this paper, we study length generalization in multi-task settings and propose Meta Rule-Following Fine-Tuning (Meta-RFFT), the first framework enabling robust cross-task length generalization. As our first contribution, we construct a large length generalization dataset containing 86 tasks spanning code execution, number processing, symbolic and logical reasoning tasks, beyond the common addition or multiplication tasks. Secondly, we show that cross-task length generalization is possible with Meta-RFFT. After training on a large number of tasks and instances, the models achieve remarkable length generalization ability on unseen tasks with minimal fine-tuning or one-shot prompting. For example, after fine-tuning on 1 to 5 digit addition, our 32B model achieves 95% accuracy on 30 digit addition, significantly outperforming the state-of-the-art reasoning models (DeepSeek-R1-671B: 72%), despite never seeing this task during RF-pretraining.
- Abstract(参考訳): 長さ一般化(Longth generalization)は、訓練中に見られたものよりも長い問題を解く能力であり、大きな言語モデル(LLM)にとって重要な課題である。
以前の作業では、位置エンコーディング(PE)とデータフォーマットを変更して、加算やソートといった特定のシンボルタスクにおける長さの一般化を改善する。
しかしながら、これらのアプローチは基本的に特別なタスクに限られており、多くの場合、一般的な言語性能を低下させる。
さらに、1つのタスクでスクラッチから訓練された小さな変換器で評価され、一般的な能力を持つ実用LLMの訓練後の段階では性能が低下する可能性がある。
Hu et al , (2024) は、LLMの後の訓練段階における長さ一般化を改善するためにルール追従ファインチューニング (RFFT) を提案した。
実用モデルとの互換性と高い性能にもかかわらず、RFFTは単一タスクに対しても提案されており、個々のタスクに対して広範な例で再訓練する必要がある。
本稿では,マルチタスク設定における長さ一般化について検討し,マルチタスク間距離一般化を実現する最初のフレームワークであるメタルール追従ファインタニング(Meta-RFFT)を提案する。
最初のコントリビューションとして、コード実行、数値処理、記号的および論理的推論タスクにまたがる86のタスクを、一般的な加算や乗算タスク以外にも含む、大規模な一般化データセットを構築しました。
次に,Meta-RFFTを用いて,クロスタスク長の一般化が可能であることを示す。
多数のタスクやインスタンスをトレーニングした後、モデルは最小限の微調整やワンショットプロンプトで、目に見えないタスクに対して驚くほどの長さの一般化能力を達成する。
例えば、1桁から5桁の加算を微調整した後、我々の32Bモデルは30桁の加算で95%の精度を達成し、RFプレトレーニング中にこのタスクを見たことがなく、最先端の推論モデル(DeepSeek-R1-671B: 72%)よりも大幅に優れている。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.34281749422756]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。
本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。
当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文 参考訳(メタデータ) (2024-08-24T19:11:54Z) - Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。
LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。
本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文 参考訳(メタデータ) (2024-07-11T12:26:55Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。