論文の概要: Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.11336v1
- Date: Fri, 14 Mar 2025 12:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:54.958507
- Title: Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models
- Title(参考訳): ルールガイド型フィードバック:大規模言語モデルにおける規則順守による推論の強化
- Authors: Aissatou Diallo, Antonis Bikakis, Luke Dickens, Anthony Hunter, Rob Miller,
- Abstract要約: Rule-Guided Feedback (RGF)は、LLM(Large Language Model)のパフォーマンスを向上させるために設計されたフレームワークである。
RGFは、ルールフォローが確立されたガイドラインによって強制される教師学生パラダイムを実装している。
- 参考スコア(独自算出の注目度): 7.839338724237275
- License:
- Abstract: In this paper, we introduce Rule-Guided Feedback (RGF), a framework designed to enhance Large Language Model (LLM) performance through structured rule adherence and strategic information seeking. RGF implements a teacher-student paradigm where rule-following is forced through established guidelines. Our framework employs a Teacher model that rigorously evaluates each student output against task-specific rules, providing constructive guidance rather than direct answers when detecting deviations. This iterative feedback loop serves two crucial purposes: maintaining solutions within defined constraints and encouraging proactive information seeking to resolve uncertainties. We evaluate RGF on diverse tasks including Checkmate-in-One puzzles, Sonnet Writing, Penguins-In-a-Table classification, GSM8k, and StrategyQA. Our findings suggest that structured feedback mechanisms can significantly enhance LLMs' performance across various domains.
- Abstract(参考訳): 本稿では,構造化規則の遵守と戦略的情報探索を通じて,LLM(Large Language Model)の性能向上を目的としたフレームワークであるルールガイドフィードバック(RGF)を紹介する。
RGFは、ルールフォローが確立されたガイドラインによって強制される教師学生パラダイムを実装している。
本フレームワークでは,各学生の成果をタスク固有のルールに対して厳格に評価する教師モデルを用いて,逸脱を検出する際の直接的な回答ではなく,建設的なガイダンスを提供する。
この反復的なフィードバックループは、定義された制約内でソリューションを維持することと、不確実性を解決するために積極的に情報を求めることの2つの重要な目的を果たす。
我々は,チェックメイト・イン・ワンパズル,ソネット・ライティング,ペンギン・イン・ア・タブル分類,GSM8k,StrategyQAなど,さまざまなタスクにおいてRGFを評価する。
この結果から,構造化されたフィードバック機構がLLMの性能を大幅に向上させる可能性が示唆された。
関連論文リスト
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation [45.40828381049737]
本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
論文 参考訳(メタデータ) (2024-09-25T19:49:39Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。
我々は, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しい復号化フレームワーク DECIDER を提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。
我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。
我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T15:59:54Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Small Changes Make Big Differences: Improving Multi-turn Response
Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning [27.914380392295815]
検索に基づく対話応答選択は、マルチターンコンテキストが与えられた候補集合から適切な応答を求めることを目的としている。
PLMに基づく応答選択タスクのための新しいtextbfFine-textbfGrained textbfContrastive (FGC) 学習法を提案する。
論文 参考訳(メタデータ) (2021-11-19T11:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。