Fugu-MT 論文翻訳(概要): Training Large Language Models to be Better Rule Followers

論文の概要: Training Large Language Models to be Better Rule Followers

arxiv url: http://arxiv.org/abs/2502.11525v1
Date: Mon, 17 Feb 2025 07:54:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.143045
Title: Training Large Language Models to be Better Rule Followers
Title（参考訳）: ルールフォローを改善するための大規模言語モデルのトレーニング
Authors: Yi Hu, Shijia Kang, Haotong Yang, Haotian Xu, Muhan Zhang,
Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。現在の訓練方法はこれらのルールを効果的に活用できない。本稿ではメタルール追従ファインチューニング(Meta-RFFT)を提案する。
参考スコア（独自算出の注目度）: 23.958458849973248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown impressive performance across a wide range of tasks. However, they often exhibit unexpected failures in seemingly straightforward tasks, suggesting a reliance on case-based reasoning rather than rule-based reasoning. While the vast training corpus of LLMs contains numerous textual "rules", current training methods fail to leverage these rules effectively. Crucially, the relationships between these "rules" and their corresponding "instances" are not explicitly modeled. As a result, while LLMs can often recall rules with ease, they fail to apply these rules strictly and consistently in relevant reasoning scenarios. In this paper, we investigate the rule-following capabilities of LLMs and propose Meta Rule-Following Fine-Tuning (Meta-RFFT) to enhance the cross-task transferability of rule-following abilities. We first construct a dataset of 88 tasks requiring following rules, encompassing diverse reasoning domains. We demonstrate through extensive experiments that models trained on large-scale rule-following tasks are better rule followers, outperforming the baselines in both downstream fine-tuning and few-shot prompting scenarios. This highlights the cross-task transferability of models with the aid of Meta-RFFT. Furthermore, we examine the influence of factors such as dataset size, rule formulation, and in-context learning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。しかし、一見単純なタスクで予期せぬ失敗をしばしば示し、ルールベースの推論よりもケースベースの推論に依存することを示唆している。 LLMの膨大なトレーニングコーパスには多数のテキスト"ルール"が含まれているが、現在のトレーニング手法ではこれらのルールを効果的に活用できない。重要なことに、これらの「ルール」とそれに対応する「瞬間」の関係は、明示的にモデル化されていない。結果として、LSMはルールを簡単にリコールすることができるが、これらのルールを厳格かつ一貫して関連する推論シナリオに適用することができない。本稿では, LLMのルール追従能力について検討し, メタルール追従ファインチューニング(Meta-RFFT)を提案し, ルール追従能力のクロスタスク伝達性を向上させる。まず、ルールに従う88のタスクのデータセットを構築し、多様な推論領域を包含する。大規模なルール追従タスクでトレーニングされたモデルが、より優れたルール追従者であり、下流の微調整と数発のプロンプトシナリオの両方でベースラインを上回ります。これはMeta-RFFTの助けを借りて、モデルのクロスタスク転送性を強調している。さらに,データセットのサイズ,規則定式化,文脈内学習などの影響について検討した。

関連論文リスト

The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文参考訳（メタデータ） (2024-09-10T06:07:32Z)
Symbolic Working Memory Enhances Language Models for Complex Rule Application [87.34281749422756]
大規模言語モデル(LLM)は、顕著な推論性能を示しているが、多段階の推論に苦慮している。本稿では,外部ワーキングメモリを用いたLLMの拡張と,ルール適用のためのニューロシンボリックフレームワークを提案する。当社のフレームワークは,LLMベースのルール実装とシンボリックルールグラウンディングを反復的に実施する。
論文参考訳（メタデータ） (2024-08-24T19:11:54Z)
Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。 LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文参考訳（メタデータ） (2024-07-11T12:26:55Z)
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T03:38:51Z)
Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。 RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文参考訳（メタデータ） (2023-11-06T08:50:29Z)
ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文参考訳（メタデータ） (2023-09-04T11:38:02Z)
RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文参考訳（メタデータ） (2021-09-24T16:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。