論文の概要: Enhancing Self-Correction in Large Language Models through Multi-Perspective Reflection
- arxiv url: http://arxiv.org/abs/2601.07780v1
- Date: Mon, 12 Jan 2026 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.720841
- Title: Enhancing Self-Correction in Large Language Models through Multi-Perspective Reflection
- Title(参考訳): 多視点反射による大規模言語モデルにおける自己補正の促進
- Authors: Mariana Costa, Alberlucia Rafael Soarez, Daniel Kim, Camila Ferreira,
- Abstract要約: MyGO Poly-Reflective Chain-of-Thought (PR-CoT) は構造化多重反射を用いた新しい手法である。
最初のCoTは、モデルの再訓練なしに、より堅牢で正確な最終回答へと洗練される。
従来のCoTや既存のリフレクション手法よりも論理的整合性や誤り訂正に優れています。
- 参考スコア(独自算出の注目度): 0.33625320078410365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Chain-of-Thought (CoT) prompting advances LLM reasoning, challenges persist in consistency, accuracy, and self-correction, especially for complex or ethically sensitive tasks. Existing single-dimensional reflection methods offer insufficient improvements. We propose MyGO Poly-Reflective Chain-of-Thought (PR-CoT), a novel methodology employing structured multi-perspective reflection. After initial CoT, PR-CoT guides the LLM to self-assess its reasoning across multiple predefined angles: logical consistency, information completeness, biases/ethics, and alternative solutions. Implemented purely via prompt engineering, this process refines the initial CoT into a more robust and accurate final answer without model retraining. Experiments across arithmetic, commonsense, ethical decision-making, and logical puzzles, using GPT-three point five and GPT-four models, demonstrate PR-CoT's superior performance. It significantly outperforms traditional CoT and existing reflection methods in logical consistency and error correction, with notable gains in nuanced domains like ethical decision-making. Ablation studies, human evaluations, and qualitative analyses further validate the contribution of each reflection perspective and the overall efficacy of our poly-reflective paradigm in fostering more reliable LLM reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)がLSM推論を推し進める一方で、特に複雑で倫理的に敏感なタスクでは、一貫性、正確性、自己補正に課題が持続する。
既存の1次元反射法は不十分な改善をもたらす。
構造化多視点反射を用いた新しい手法であるMyGO Poly-Reflective Chain-of-Thought (PR-CoT)を提案する。
最初のCoTの後、PR-CoTは論理的一貫性、情報完全性、バイアス/倫理、代替解など、複数の事前定義された角度にまたがる推論を自己評価するようLLMに誘導する。
このプロセスは、素早いエンジニアリングによって純粋に実装され、モデルの再トレーニングなしに、初期CoTをより堅牢で正確な最終回答へと洗練します。
算術、常識、倫理的決定、論理パズルにまたがる実験では、GPT- three point 5 と GPT-four model を用いてPR-CoT の優れた性能を示す。
従来のCoTや既存のリフレクション手法よりも論理的整合性や誤り訂正に優れており、倫理的意思決定のような曖昧な領域では顕著に有利である。
より信頼性の高いLCM推論を育成する上で, 各反射面の寄与と多反射的パラダイムの総合的有効性について, アブレーション研究, 人体評価, 定性分析を行った。
関連論文リスト
- Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting [0.0]
大規模言語モデル(LLM)における多段階数学的推論を強化する新しい手法を提案する。
Multi-Layered Self-Reflection with Auto-Prompting (MAPS)フレームワークは、Chain of Thought (CoT)、Self-Reflection、Auto-Promptingといったテクニックを統合している。
実験により、MAPSは標準のCoTよりも大幅に優れ、推論最適化モデルと競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-30T14:18:35Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [45.28220409043598]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。