論文の概要: Improve Vision Language Model Chain-of-thought Reasoning
- arxiv url: http://arxiv.org/abs/2410.16198v1
- Date: Mon, 21 Oct 2024 17:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:29.285333
- Title: Improve Vision Language Model Chain-of-thought Reasoning
- Title(参考訳): 視覚言語モデルチェイン・オブ・シント推論の改善
- Authors: Ruohong Zhang, Bowen Zhang, Yanghao Li, Haotian Zhang, Zhiqing Sun, Zhe Gan, Yinfei Yang, Ruoming Pang, Yiming Yang,
- Abstract要約: 視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
- 参考スコア(独自算出の注目度): 86.83335752119741
- License:
- Abstract: Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT reasoning data, relying on datasets dominated by short annotations with minimal rationales. In this work, we show that training VLM on short answers does not generalize well to reasoning tasks that require more detailed responses. To address this, we propose a two-fold approach. First, we distill rationales from GPT-4o model to enrich the training data and fine-tune VLMs, boosting their CoT performance. Second, we apply reinforcement learning to further calibrate reasoning quality. Specifically, we construct positive (correct) and negative (incorrect) pairs of model-generated reasoning chains, by comparing their predictions with annotated short answers. Using this pairwise data, we apply the Direct Preference Optimization algorithm to refine the model's reasoning abilities. Our experiments demonstrate significant improvements in CoT reasoning on benchmark datasets and better generalization to direct answer prediction as well. This work emphasizes the importance of incorporating detailed rationales in training and leveraging reinforcement learning to strengthen the reasoning capabilities of VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
しかし、現在のトレーニングのレシピには堅牢なCoT推論データがなく、最小限の合理性を持つ短いアノテーションが支配するデータセットに依存している。
本研究では,より詳細な回答を必要とするタスクの推論に対して,短い回答でVLMを訓練することはよくないことを示す。
この問題に対処するため,我々は2つのアプローチを提案する。
まず,GPT-4oモデルから合理性を抽出し,トレーニングデータと微調整VLMを豊かにすることにより,CoT性能を向上する。
第2に、推論品質のさらなる校正に強化学習を適用する。
具体的には、モデル生成推論チェインの正(正しい)と負(正しくない)のペアを構築し、それらの予測を注釈付き短解と比較する。
このペアワイズデータを用いて,モデルの推論能力を改良するために,直接参照最適化アルゴリズムを適用した。
本実験は,ベンチマークデータセットにおけるCoT推論の大幅な改善と,直接解答予測の一般化を示す。
この研究は、VLMの推論能力を強化するために、トレーニングに詳細な合理性を取り入れ、強化学習を活用することの重要性を強調している。
関連論文リスト
- Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Counterfactual Collaborative Reasoning [41.89113539041682]
因果推論と論理推論は、人間の知性にとって重要な推論能力の2つの種類である。
本稿では,性能向上のために,対実論理推論を行う対実協調推論を提案する。
3つの実世界のデータセットの実験は、CCRが非拡張モデルや暗黙的に拡張モデルよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2023-06-30T23:01:10Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Harnessing the Power of Explanations for Incremental Training: A
LIME-Based Approach [6.244905619201076]
この研究では、モデル説明がフィードフォワードトレーニングにフィードバックされ、モデルをより一般化するのに役立つ。
このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)によるカスタム重み付き損失を取り入れている。
提案したカスタムトレーニング手順は、インクリメンタルラーニングセットアップのすべてのフェーズにおいて、0.5%から1.5%までの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2022-11-02T18:16:17Z) - Revisiting the Critical Factors of Augmentation-Invariant Representation
Learning [8.28445083127418]
我々は、MoCo v2とBYOLを再検討し、次の仮定の真正性を証明する。
我々は,MoCo v2とBYOLの公正比較のための最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2022-07-30T17:07:13Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。