論文の概要: Investigating the Impact of Rationales for LLMs on Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2510.16686v1
- Date: Sun, 19 Oct 2025 02:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.84061
- Title: Investigating the Impact of Rationales for LLMs on Natural Language Understanding
- Title(参考訳): LLMの合理化が自然言語理解に及ぼす影響について
- Authors: Wenhang Shi, Shuqing Bian, Yiren Chen, Xinyi Zhang, Zhe Zhao, Pengfei Hu, Wei Lu, Xiaoyong Du,
- Abstract要約: チェーン・オブ・シント(CoT)の合理性は、最終的な答えを導出するためのステップバイステップの推論を提供する。
有理性を取り入れることで、数学的、記号的、常識的推論タスクにおけるモデル性能が向上する。
ほとんどの合理的に強化されたトレーニング手法は、ラベルのみのトレーニングよりもパフォーマンスが悪く、1つの特別に設計された手法が改善を継続的に達成している。
- 参考スコア(独自算出の注目度): 14.839470383151552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) rationales, which provide step-by-step reasoning to derive final answers, benefit LLMs in both inference and training. Incorporating rationales, either by generating them before answering during inference, or by placing them before or after the original answers during training - significantly improves model performance on mathematical, symbolic and commonsense reasoning tasks. However, most work focuses on the role of rationales in these reasoning tasks, overlooking their potential impact on other important tasks like natural language understanding (NLU) tasks. In this work, we raise the question: Can rationales similarly benefit NLU tasks? To conduct a systematic exploration, we construct NLURC, a comprehensive and high-quality NLU dataset collection with rationales, and develop various rationale-augmented methods. Through exploring the applicability of these methods on NLU tasks using the dataset, we uncover several potentially surprising findings: (1) CoT inference shifts from hindering NLU performance to surpassing direct label prediction as model size grows, indicating a positive correlation. (2) Most rationale-augmented training methods perform worse than label-only training, with one specially designed method consistently achieving improvements. (3) LLMs trained with rationales achieve significant performance gains on unseen NLU tasks, rivaling models ten times their size, while delivering interpretability on par with commercial LLMs.
- Abstract(参考訳): CoT(Chain-of- Thought)は、最終的な答えを導出するためのステップバイステップの推論を提供する、推論とトレーニングの両方においてLLMに恩恵を与える。
推論中に答える前にそれを生成するか、トレーニング中に元の答えの前または後にそれを置くことによって、合理性を組み込むことで、数学的、記号的、常識的な推論タスクにおけるモデルパフォーマンスを著しく改善する。
しかしながら、ほとんどの研究は、これらの推論タスクにおける理性の役割に焦点を当てており、自然言語理解(NLU)タスクのような他の重要なタスクに対する潜在的な影響を見越している。
この研究で、我々は疑問を提起する: 理性は同様にNLUタスクに利益をもたらすか?
系統的な探索を行うため,総合的かつ高品質なNLUデータセットコレクションであるNLURCを構築し,様々な合理化手法を開発した。
データセットを用いてこれらの手法の適用性を調べることで,(1)CoT推論がNLU性能を阻害するから,モデルサイズが大きくなるにつれて直接ラベル予測を超越し,正の相関関係を示すことが判明した。
2)ほとんどの合理化訓練法はラベルのみの訓練よりも成績が悪く,一種類の特別設計法は改善を継続的に達成している。
3) 有理数で訓練されたLLMは, 市販のLLMと同等の解釈性を提供しながら, 未知のNLUタスクにおいて, 10倍の大きさのモデルに匹敵し, 大幅な性能向上を実現している。
関連論文リスト
- Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code [29.382261465478248]
コードや数学の問題を通した因果推論を運用するフレームワークである実行可能逆ファクトアルを導入する。
その結果,o4-mini や Claude-4-Sonnet などの SOTA モデルでは,介入による精度 (25-40%) の低下が認められた。
また、コードで訓練されたモデルが、反実数ワード問題に一般化するかどうかを検証した。
論文 参考訳(メタデータ) (2025-10-02T00:26:35Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。
SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。
提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-19T17:03:02Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。