Fugu-MT 論文翻訳(概要): MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models

論文の概要: MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2310.12426v1
Date: Thu, 19 Oct 2023 02:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 17:16:04.437803
Title: MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models
Title（参考訳）: maf: 大規模言語モデルの推論を改善するためのマルチアスペクトフィードバック
Authors: Deepak Nathani, David Wang, Liangming Pan, William Yang Wang
Abstract要約: 言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
参考スコア（独自算出の注目度）: 64.70153487607172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language Models (LMs) have shown impressive performance in various natural language tasks. However, when it comes to natural language reasoning, LMs still face challenges such as hallucination, generating incorrect intermediate reasoning steps, and making mathematical errors. Recent research has focused on enhancing LMs through self-improvement using feedback. Nevertheless, existing approaches relying on a single generic feedback source fail to address the diverse error types found in LM-generated reasoning chains. In this work, we propose Multi-Aspect Feedback, an iterative refinement framework that integrates multiple feedback modules, including frozen LMs and external tools, each focusing on a specific error category. Our experimental results demonstrate the efficacy of our approach to addressing several errors in the LM-generated reasoning chain and thus improving the overall performance of an LM in several reasoning tasks. We see a relative improvement of up to 20% in Mathematical Reasoning and up to 18% in Logical Entailment.
Abstract（参考訳）: 言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。しかし、自然言語推論に関しては、まだ幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。近年の研究では,フィードバックによる自己改善によるlms向上に重点が置かれている。それでも、単一の汎用的なフィードバックソースに依存する既存のアプローチでは、LM生成推論チェーンに見られる多様なエラータイプに対処できない。本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。実験により,本手法がLM生成推論チェーンにおけるいくつかの誤りに対処し,複数の推論タスクにおけるLMの全体的な性能を向上することを示す。数学的推論における相対的な改善は最大20%、論理計算では最大18%である。

関連論文リスト

MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning [3.486190892832845]
MoL-RLは、多段階EF信号を大規模言語モデルに統合する新しい訓練パラダイムである。我々は,MoL-RLがQwen3-8Bモデルを用いて最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-07-27T13:52:15Z)
Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback [20.985320124495566]
LLMは外部からのフィードバックを受けると応答を改善する能力を持っている。これらのモデルが外部からのフィードバックをいかに効果的かつ徹底的に組み込むことができるかは、まだ不明である。
論文参考訳（メタデータ） (2025-06-13T16:31:51Z)
DeduCE: Deductive Consistency as a Framework to Evaluate LLM Reasoning [8.241541739675055]
本稿では,言語モデル(LM)からのチェーン・オブ・シント・アウトプットを解析するための帰納的整合性尺度を提案する。 LMは入力前提数の増加に対してかなり堅牢であるが, 推理ホップ数の増加に伴い精度が著しく低下することがわかった。
論文参考訳（メタデータ） (2025-04-09T17:53:55Z)
Toward Adaptive Reasoning in Large Language Models with Thought Rollback [33.714789952452094]
本稿では,Thought Rollback (TR) と呼ばれる新しい推論フレームワークを提案する。 TRにより、大規模言語モデル(LLM)は、幻覚下での問題解決に向けた効果的な推論を維持しつつ、思考構造を適応的に構築することができる」。
論文参考訳（メタデータ） (2024-12-27T16:02:34Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文参考訳（メタデータ） (2024-03-28T02:12:49Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Zero-Shot Question Answering over Financial Documents using Large Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。 LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文参考訳（メタデータ） (2023-11-19T16:23:34Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Noisy Exemplars Make Large Language Models More Robust: A Domain-Agnostic Behavioral Analysis [10.06218778776515]
ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
論文参考訳（メタデータ） (2023-11-01T03:15:05Z)
oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文参考訳（メタデータ） (2019-12-31T12:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。