Fugu-MT 論文翻訳(概要): Rewarding Curse: Analyze and Mitigate Reward Modeling Issues for LLM Reasoning

論文の概要: Rewarding Curse: Analyze and Mitigate Reward Modeling Issues for LLM Reasoning

arxiv url: http://arxiv.org/abs/2503.05188v1
Date: Fri, 07 Mar 2025 07:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.906703
Title: Rewarding Curse: Analyze and Mitigate Reward Modeling Issues for LLM Reasoning
Title（参考訳）: Rewarding Curse: LLM ReasoningにおけるReward Modeling問題の解析と緩和
Authors: Jiachun Li, Pengfei Cao, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, Jun Zhao,
Abstract要約: CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。我々は,CoTの有効性が問題困難,情報ゲイン,情報フローなどのパフォーマンス改善に影響を及ぼす重要な要因を同定する。
参考スコア（独自算出の注目度）: 17.6082037230676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-thought (CoT) prompting demonstrates varying performance under different reasoning tasks. Previous work attempts to evaluate it but falls short in providing an in-depth analysis of patterns that influence the CoT. In this paper, we study the CoT performance from the perspective of effectiveness and faithfulness. For the former, we identify key factors that influence CoT effectiveness on performance improvement, including problem difficulty, information gain, and information flow. For the latter, we interpret the unfaithful CoT issue by conducting a joint analysis of the information interaction among the question, CoT, and answer. The result demonstrates that, when the LLM predicts answers, it can recall correct information missing in the CoT from the question, leading to the problem. Finally, we propose a novel algorithm to mitigate this issue, in which we recall extra information from the question to enhance the CoT generation and evaluate CoTs based on their information gain. Extensive experiments demonstrate that our approach enhances both the faithfulness and effectiveness of CoT.
Abstract（参考訳）: CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。本稿では,CoTの性能を有効性と忠実性の観点から検討する。前者に対しては,問題難易度,情報ゲイン,情報フローなど,CoTの有効性に影響を及ぼす重要な要因を同定する。後者では,質問,CoT,回答間の情報相互作用を共同で分析することにより,不誠実なCoT問題を解釈する。その結果、LLMが回答を予測すると、質問からCoTに欠けている正確な情報をリコールし、問題の原因となることが示される。最後に,この問題を緩和する新しいアルゴリズムを提案する。このアルゴリズムでは,問題の余分な情報を思い出して,CoT生成を向上し,CoTを情報ゲインに基づいて評価する。大規模な実験により,我々のアプローチはCoTの忠実性と有効性の両方を高めることが示された。

関連論文リスト

TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance [83.99974309930072]
Supervised Fine-tuning (SFT)は、大規模言語モデル(LLM)のドメイン固有質問応答(QA)性能を改善するための一般的なアプローチである。
論文参考訳（メタデータ） (2025-05-21T12:55:28Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness [17.6082037230676]
CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。我々は,CoTの有効性が問題困難,情報ゲイン,情報フローなどのパフォーマンス改善に影響を及ぼす重要な要因を同定する。
論文参考訳（メタデータ） (2024-05-29T09:17:46Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis [20.24915029448926]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。本稿では,エンティティ間の関係を捉えることで,LLMのコンテキスト理解を支援する新しいアプローチであるERA-CoTを提案する。
論文参考訳（メタデータ） (2024-03-11T17:18:53Z)
Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning [21.951313919964484]
大規模言語モデルは高レベルのコモンセンス推論能力を示す。 CoTライクな手法は、もともとは正しい答えが間違っていた、というかなりの数に繋がる。帰属的追跡法と因果的追跡法を用いて,モデルの内部動作機構を探索する。
論文参考訳（メタデータ） (2024-02-28T14:09:02Z)
Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文参考訳（メタデータ） (2023-11-03T03:18:40Z)
Towards Better Chain-of-Thought Prompting Strategies: A Survey [60.75420407216108]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の促進戦略として使用すると,その印象的な強度を示す。近年,CoTの促進効果が注目されている。この調査は、関連する研究全般の参考になるかもしれない。
論文参考訳（メタデータ） (2023-10-08T01:16:55Z)
Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文参考訳（メタデータ） (2023-09-28T17:21:33Z)
Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-25T09:23:55Z)
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する無効な実演でもCoT推論が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T05:20:54Z)
SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文参考訳（メタデータ） (2021-09-24T17:37:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。