論文の概要: Training Large Language Models to be Better Rule Followers
- arxiv url: http://arxiv.org/abs/2502.11525v1
- Date: Mon, 17 Feb 2025 07:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.143045
- Title: Training Large Language Models to be Better Rule Followers
- Title(参考訳): ルールフォローを改善するための大規模言語モデルのトレーニング
- Authors: Yi Hu, Shijia Kang, Haotong Yang, Haotian Xu, Muhan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
現在の訓練方法はこれらのルールを効果的に活用できない。
本稿ではメタルール追従ファインチューニング(Meta-RFFT)を提案する。
- 参考スコア(独自算出の注目度): 23.958458849973248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive performance across a wide range of tasks. However, they often exhibit unexpected failures in seemingly straightforward tasks, suggesting a reliance on case-based reasoning rather than rule-based reasoning. While the vast training corpus of LLMs contains numerous textual "rules", current training methods fail to leverage these rules effectively. Crucially, the relationships between these "rules" and their corresponding "instances" are not explicitly modeled. As a result, while LLMs can often recall rules with ease, they fail to apply these rules strictly and consistently in relevant reasoning scenarios. In this paper, we investigate the rule-following capabilities of LLMs and propose Meta Rule-Following Fine-Tuning (Meta-RFFT) to enhance the cross-task transferability of rule-following abilities. We first construct a dataset of 88 tasks requiring following rules, encompassing diverse reasoning domains. We demonstrate through extensive experiments that models trained on large-scale rule-following tasks are better rule followers, outperforming the baselines in both downstream fine-tuning and few-shot prompting scenarios. This highlights the cross-task transferability of models with the aid of Meta-RFFT. Furthermore, we examine the influence of factors such as dataset size, rule formulation, and in-context learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
しかし、一見単純なタスクで予期せぬ失敗をしばしば示し、ルールベースの推論よりもケースベースの推論に依存することを示唆している。
LLMの膨大なトレーニングコーパスには多数のテキスト"ルール"が含まれているが、現在のトレーニング手法ではこれらのルールを効果的に活用できない。
重要なことに、これらの「ルール」とそれに対応する「瞬間」の関係は、明示的にモデル化されていない。
結果として、LSMはルールを簡単にリコールすることができるが、これらのルールを厳格かつ一貫して関連する推論シナリオに適用することができない。
本稿では, LLMのルール追従能力について検討し, メタルール追従ファインチューニング(Meta-RFFT)を提案し, ルール追従能力のクロスタスク伝達性を向上させる。
まず、ルールに従う88のタスクのデータセットを構築し、多様な推論領域を包含する。
大規模なルール追従タスクでトレーニングされたモデルが、より優れたルール追従者であり、下流の微調整と数発のプロンプトシナリオの両方でベースラインを上回ります。
これはMeta-RFFTの助けを借りて、モデルのクロスタスク転送性を強調している。
さらに,データセットのサイズ,規則定式化,文脈内学習などの影響について検討した。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.34281749422756]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。
本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。
当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文 参考訳(メタデータ) (2024-08-24T19:11:54Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。
LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。
本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文 参考訳(メタデータ) (2024-07-11T12:26:55Z) - From Instance Training to Instruction Learning: Task Adapters Generation from Instructions [29.452006810725184]
本稿では,事例学習の欠点に対処するために,人間の学習をシミュレートすることに焦点を当てる。
タスク固有のモデルを自動的に構築するTAGI(Task Adapters from Instructions)を導入する。
超自然的インストラクションとP3データセットを用いたTAGIの評価を行った。
論文 参考訳(メタデータ) (2024-06-18T08:14:28Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - Improving Length-Generalization in Transformers via Task Hinting [42.95479331339189]
特に、タスクで訓練された変換器モデルの性能は、同じ問題の長いインスタンスに適用した場合、急激に低下する。
本研究は,タスクヒントに基づく長さ一般化へのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-01T16:57:40Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Two-stage LLM Fine-tuning with Less Specialization and More
Generalization [93.12197594813378]
本稿では,Model Tuning (ProMoT) を用いた Prompt Tuning を提案する。
ProMoTは、タスク固有のフォーマット学習を、最初はプロンプトチューニングを行い、次にこのソフトプロンプトでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。
ProMoTは、微調整タスクと意味的に関連するコンテキスト内学習タスクの一般化を強化することもできる。
論文 参考訳(メタデータ) (2022-11-01T17:56:57Z) - Unsupervised Cross-Task Generalization via Retrieval Augmentation [27.47782160720298]
本稿では,ReCross という名前の検索拡張手法を提案する。
実験結果から,提案したReCrossは非検索ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-17T06:05:13Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。