論文の概要: Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction
- arxiv url: http://arxiv.org/abs/2503.00902v1
- Date: Sun, 02 Mar 2025 14:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.673481
- Title: Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction
- Title(参考訳): インストラクション・オブ・リフレクション:動的メタインストラクションによる大規模言語モデルの反復的リフレクション機能強化
- Authors: Liping Liu, Chunhong Zhang, Likang Wu, Chuang Zhao, Zheng Hu, Ming He, Jianping Fan,
- Abstract要約: インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
- 参考スコア(独自算出の注目度): 11.838351314880736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-reflection for Large Language Models (LLMs) has gained significant attention. Existing approaches involve models iterating and improving their previous responses based on LLMs' internal reflection ability or external feedback. However, recent research has raised doubts about whether intrinsic self-correction without external feedback may even degrade performance. Based on our empirical evidence, we find that current static reflection methods may lead to redundant, drift, and stubborn issues. To mitigate this, we introduce Instruct-of-Reflection (IoRT), a novel and general reflection framework that leverages dynamic-meta instruction to enhance the iterative reflection capability of LLMs. Specifically, we propose the instructor driven by the meta-thoughts and self-consistency classifier, generates various instructions, including refresh, stop, and select, to guide the next reflection iteration. Our experiments demonstrate that IoRT achieves an average improvement of 10.1% over established baselines in mathematical and commonsense reasoning tasks, highlighting its efficacy and applicability.
- Abstract(参考訳): 大規模言語モデル(LLM)の自己回帰は注目されている。
既存のアプローチは、LCMの内部反射能力や外部からのフィードバックに基づいて、以前の応答を反復し改善するモデルを含んでいる。
しかし、近年の研究では、外部からのフィードバックを伴わない本質的な自己補正が性能を低下させるのではないかという疑問が持ち上がっている。
経験的証拠から、現在の静的反射法は冗長性、ドリフト性、頑健性に繋がる可能性があることが判明した。
これを軽減するために,動的メタ命令を活用してLLMの反復反射能力を向上する,新しい一般反射フレームワークであるInstruct-of-Reflection(IoRT)を導入する。
具体的には、メタ思考と自己整合性分類器によって駆動されるインストラクターを提案し、リフレッシュ、ストップ、セレクションを含む様々な命令を生成し、次のリフレクションイテレーションを導く。
実験により,IoRTは数学的および常識的推論タスクの確立されたベースラインよりも平均10.1%向上し,その有効性と適用性を強調した。
関連論文リスト
- Perception in Reflection [39.33505560810175]
本稿では,現在の大規模視覚言語モデルの限界を超越したリフレクションパラダイムを提案する。
本稿では、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案する。
論文 参考訳(メタデータ) (2025-04-09T17:59:02Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration [16.10791252542592]
シーケンスレコメンデーション(SeqRec)は、ユーザの意図を理解し、協調的なフィルタリング情報を活用することによって、ユーザが対話する次の項目を予測することを目的としている。
大規模言語モデル(LLM)は、プロンプトベース、固定されたリフレクションライブラリ、微調整技術を通じて推奨タスクにおいて大きな可能性を示してきた。
MoREは、明示的な選好、暗黙的な選好、協調的な信号に関するLLMベースのリフレクタを生成するための3つのリフレクタを導入している。
論文 参考訳(メタデータ) (2024-09-10T09:58:55Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。