論文の概要: Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training
- arxiv url: http://arxiv.org/abs/2311.14109v1
- Date: Thu, 23 Nov 2023 17:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:07:10.632551
- Title: Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training
- Title(参考訳): 大規模モデルに適合する小型マルチモーダル推論モデルのパワー向上と自己一貫性トレーニング
- Authors: Cheng Tan, Jingxuan Wei, Zhangyang Gao, Linzhuang Sun, Siyuan Li,
Xihong Yang, Stan Z. Li
- Abstract要約: マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
- 参考スコア(独自算出の注目度): 55.07940036854454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning is a challenging task that requires models to reason
across multiple modalities to answer questions. Existing approaches have made
progress by incorporating language and visual modalities into a two-stage
reasoning framework, separating rationale generation from answer inference.
However, these approaches often fall short due to the inadequate quality of the
generated rationales. In this work, we delve into the importance of rationales
in model reasoning. We observe that when rationales are completely accurate,
the model's accuracy significantly improves, highlighting the need for
high-quality rationale generation. Motivated by this, we propose MC-CoT, a
self-consistency training strategy that generates multiple rationales and
answers, subsequently selecting the most accurate through a voting process.
This approach not only enhances the quality of generated rationales but also
leads to more accurate and robust answers. Through extensive experiments, we
demonstrate that our approach significantly improves model performance across
various benchmarks. Remarkably, we show that even smaller base models, when
equipped with our proposed approach, can achieve results comparable to those of
larger models, illustrating the potential of our approach in harnessing the
power of rationales for improved multimodal reasoning. The code is available at
https://github.com/chengtan9907/mc-cot.
- Abstract(参考訳): マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで、応答推論から合理的生成を分離する。
しかし、これらのアプローチは、しばしば生成された合理性の不十分な品質のために不足する。
この研究では、モデル推論における理性の重要性を掘り下げる。
理論が完全に正確である場合、モデルの精度が大幅に向上し、高品質な論理生成の必要性が強調される。
MC-CoTは,複数の合理性と回答を生成する自己整合性学習戦略であり,投票プロセスを通じて最も正確なものを選択する。
このアプローチは、生成された合理性の品質を高めるだけでなく、より正確で堅牢な答えをもたらす。
広範な実験を通じて,本手法は様々なベンチマークにおけるモデル性能を著しく向上させることを示した。
注目すべきことに,提案手法を応用すれば,より小さなベースモデルであっても,より大規模なモデルに匹敵する結果が得られることが示され,マルチモーダル推論の改善に合理性のパワーを活用できる可能性が示唆された。
コードはhttps://github.com/chengtan9907/mc-cotで入手できる。
関連論文リスト
- Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - How Ambiguous are the Rationales for Natural Language Reasoning? A Simple Approach to Handling Rationale Uncertainty [0.0]
答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。
モデルパフォーマンスを促進するのに十分な根拠が忠実である程度を見積もるのは簡単ではない。
本稿では,不完全理理性に対処する方法を提案する。
論文 参考訳(メタデータ) (2024-02-22T07:12:34Z) - Reasoning Circuits: Few-shot Multihop Question Generation with
Structured Rationales [11.068901022944015]
連鎖論理生成は多段階推論タスクの性能を向上させることが示されている。
極めて低い監督体制下でのマルチホップ質問生成にチェーン・オブ・インスパイアされた構造的合理的生成を適用するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2022-11-15T19:36:06Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。