論文の概要: Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2410.04055v1
- Date: Sat, 5 Oct 2024 06:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:30:41.707916
- Title: Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks
- Title(参考訳): 自己補正はリファインメント以上のもの:ビジュアルおよび言語推論タスクのための学習フレームワーク
- Authors: Jiayi He, Hehai Lin, Qingyun Wang, Yi Fung, Heng Ji,
- Abstract要約: モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。
本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
- 参考スコア(独自算出の注目度): 43.96835245022083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) have shown remarkable abilities in visual and language reasoning tasks, they invariably generate flawed responses. Self-correction that instructs models to refine their outputs presents a promising solution to this issue. Previous studies have mainly concentrated on Large Language Models (LLMs), while the self-correction abilities of VLMs, particularly concerning both visual and linguistic information, remain largely unexamined. This study investigates the self-correction capabilities of VLMs during both inference and fine-tuning stages. We introduce a Self-Correction Learning (SCL) approach that enables VLMs to learn from their self-generated self-correction data through Direct Preference Optimization (DPO) without relying on external feedback, facilitating self-improvement. Specifically, we collect preferred and disfavored samples based on the correctness of initial and refined responses, which are obtained by two-turn self-correction with VLMs during the inference stage. Experimental results demonstrate that although VLMs struggle to self-correct effectively during iterative inference without additional fine-tuning and external feedback, they can enhance their performance and avoid previous mistakes through preference fine-tuning when their self-generated self-correction data are categorized into preferred and disfavored samples. This study emphasizes that self-correction is not merely a refinement process; rather, it should enhance the reasoning abilities of models through additional training, enabling them to generate high-quality responses directly without further refinement.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的および言語推論タスクにおいて顕著な能力を示したが、それは必ず欠陥のある応答を生成する。
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。
従来の研究は主にLarge Language Models (LLMs) に集中していたが、VLMの自己補正能力、特に視覚情報と言語情報については、ほとんど検討されていない。
本研究では,VLMの推論および微調整段階における自己補正能力について検討した。
本稿では,VLM が外部からのフィードバックに頼ることなく,直接選好最適化 (DPO) を通じて自己生成した自己補正データから学習できる自己補正学習 (Self-Correction Learning, SCL) 手法を提案する。
具体的には,VLMの2ターン自己補正によって得られた初期応答と精製応答の正当性に基づいて,好ましくないサンプルを抽出する。
実験の結果,VLMは反復推論において,微調整や外部からのフィードバックを伴わずに効果的に自己補正に苦慮するが,自己生成した自己補正データを好ましくも好ましくないサンプルに分類した場合に,好みの微調整により過去の誤りを回避できることがわかった。
この研究は、自己補正は単なる洗練プロセスではなく、追加のトレーニングを通じてモデルの推論能力を高め、さらなる洗練を伴わずに、高品質な応答を直接生成できることを強調している。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs [29.295135832861522]
自己補正(Self-correction)は、LLMを用いて推論中に応答を精製することで、大きな言語モデル(LLM)からの応答を改善するアプローチである。
これまでの作業では,自己評価や外部からのフィードバックなど,さまざまなフィードバック源を用いたさまざまな自己補正フレームワークが提案されていた。
我々は幅広い論文を批判的に調査し、自己補正を成功させるために必要な条件について議論する。
論文 参考訳(メタデータ) (2024-06-03T13:05:46Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。