Fugu-MT 論文翻訳(概要): Automatic Curriculum Expert Iteration for Reliable LLM Reasoning

論文の概要: Automatic Curriculum Expert Iteration for Reliable LLM Reasoning

arxiv url: http://arxiv.org/abs/2410.07627v1
Date: Thu, 10 Oct 2024 05:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 15:56:40.626912
Title: Automatic Curriculum Expert Iteration for Reliable LLM Reasoning
Title（参考訳）: 信頼性LLM推論のためのカリキュラムエキスパート自動イテレーション
Authors: Zirui Zhao, Hanze Dong, Amrita Saha, Caiming Xiong, Doyen Sahoo,
Abstract要約: 幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
参考スコア（独自算出の注目度）: 60.60318625779015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hallucinations (i.e., generating plausible but inaccurate content) and laziness (i.e. excessive refusals or defaulting to "I don't know") persist as major challenges in LLM reasoning. Current efforts to reduce hallucinations primarily focus on factual errors in knowledge-grounded tasks, often neglecting hallucinations related to faulty reasoning. Meanwhile, some approaches render LLMs overly conservative, limiting their problem-solving capabilities. To mitigate hallucination and laziness in reasoning tasks, we propose Automatic Curriculum Expert Iteration (Auto-CEI) to enhance LLM reasoning and align responses to the model's capabilities--assertively answering within its limits and declining when tasks exceed them. In our method, Expert Iteration explores the reasoning trajectories near the LLM policy, guiding incorrect paths back on track to reduce compounding errors and improve robustness; it also promotes appropriate "I don't know" responses after sufficient reasoning attempts. The curriculum automatically adjusts rewards, incentivizing extended reasoning before acknowledging incapability, thereby pushing the limits of LLM reasoning and aligning its behaviour with these limits. We compare Auto-CEI with various SOTA baselines across logical reasoning, mathematics, and planning tasks, where Auto-CEI achieves superior alignment by effectively balancing assertiveness and conservativeness.
Abstract（参考訳）: 幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。一方、いくつかのアプローチではLLMが過度に保守的になり、問題解決能力が制限される。推論タスクにおける幻覚と怠慢を軽減するため,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。提案手法では, LLM ポリシ付近の推論軌道を探索し, 誤った経路を軌道に戻すことにより, 複合的誤りの低減とロバスト性の向上を実現し, 十分な推論を試みた後, 適切な「知らない」応答を促進する。このカリキュラムは報酬を自動的に調整し、障害を認める前に拡張推論をインセンティブ化し、LSM推論の限界を押し上げ、その振る舞いをこれらの制限に合わせる。我々は,Auto-CEIを論理的推論,数学,計画タスクにまたがる様々なSOTAベースラインと比較する。

関連論文リスト

Reason-KE++: Aligning the Process, Not Just the Outcome, for Faithful LLM Knowledge Editing [63.96040994220329]
SFTに基づく手法、例えばReason-KEは「偽りのギャップ」に悩まされている。このギャップにより、LLMの強力なパラメトリック先行は、新しい文脈事実をオーバーライドすることができる。本稿では,プロセスレベルの忠実性を具現化するSFT+RLフレームワークReason-KE++を提案する。
論文参考訳（メタデータ） (2025-11-16T15:49:01Z)
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
Mirage of Mastery: Memorization Tricks LLMs into Artificially Inflated Self-Knowledge [0.0]
既存の研究は、LLMにおける記憶障害と自己認知障害を別の問題として扱う。我々は,LLMが学習データから推論パターンを真に学習するかどうかを確認するために,新しいフレームワークを利用する。 LLMは記憶された解から自信を引き出して高い自己知識を推測する。
論文参考訳（メタデータ） (2025-06-23T18:01:16Z)
Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文参考訳（メタデータ） (2025-02-08T19:49:32Z)
Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文参考訳（メタデータ） (2024-12-19T15:39:31Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文参考訳（メタデータ） (2024-07-16T08:49:35Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文参考訳（メタデータ） (2024-06-19T18:26:19Z)
When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。 Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2024-02-18T04:57:19Z)
Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文参考訳（メタデータ） (2023-11-16T09:27:36Z)
Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文参考訳（メタデータ） (2023-11-15T17:46:39Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文参考訳（メタデータ） (2023-09-05T11:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。