論文の概要: Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training
- arxiv url: http://arxiv.org/abs/2311.14109v1
- Date: Thu, 23 Nov 2023 17:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:07:10.632551
- Title: Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training
- Title(参考訳): 大規模モデルに適合する小型マルチモーダル推論モデルのパワー向上と自己一貫性トレーニング
- Authors: Cheng Tan, Jingxuan Wei, Zhangyang Gao, Linzhuang Sun, Siyuan Li,
Xihong Yang, Stan Z. Li
- Abstract要約: マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
- 参考スコア(独自算出の注目度): 55.07940036854454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning is a challenging task that requires models to reason
across multiple modalities to answer questions. Existing approaches have made
progress by incorporating language and visual modalities into a two-stage
reasoning framework, separating rationale generation from answer inference.
However, these approaches often fall short due to the inadequate quality of the
generated rationales. In this work, we delve into the importance of rationales
in model reasoning. We observe that when rationales are completely accurate,
the model's accuracy significantly improves, highlighting the need for
high-quality rationale generation. Motivated by this, we propose MC-CoT, a
self-consistency training strategy that generates multiple rationales and
answers, subsequently selecting the most accurate through a voting process.
This approach not only enhances the quality of generated rationales but also
leads to more accurate and robust answers. Through extensive experiments, we
demonstrate that our approach significantly improves model performance across
various benchmarks. Remarkably, we show that even smaller base models, when
equipped with our proposed approach, can achieve results comparable to those of
larger models, illustrating the potential of our approach in harnessing the
power of rationales for improved multimodal reasoning. The code is available at
https://github.com/chengtan9907/mc-cot.
- Abstract(参考訳): マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで、応答推論から合理的生成を分離する。
しかし、これらのアプローチは、しばしば生成された合理性の不十分な品質のために不足する。
この研究では、モデル推論における理性の重要性を掘り下げる。
理論が完全に正確である場合、モデルの精度が大幅に向上し、高品質な論理生成の必要性が強調される。
MC-CoTは,複数の合理性と回答を生成する自己整合性学習戦略であり,投票プロセスを通じて最も正確なものを選択する。
このアプローチは、生成された合理性の品質を高めるだけでなく、より正確で堅牢な答えをもたらす。
広範な実験を通じて,本手法は様々なベンチマークにおけるモデル性能を著しく向上させることを示した。
注目すべきことに,提案手法を応用すれば,より小さなベースモデルであっても,より大規模なモデルに匹敵する結果が得られることが示され,マルチモーダル推論の改善に合理性のパワーを活用できる可能性が示唆された。
コードはhttps://github.com/chengtan9907/mc-cotで入手できる。
関連論文リスト
- AURA: Natural Language Reasoning for Aleatoric Uncertainty in Rationales [0.0]
答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。
モデルパフォーマンスを促進するのに十分な根拠が忠実である程度を見積もるのは簡単ではない。
本稿では,不完全理理性に対処する方法を提案する。
論文 参考訳(メタデータ) (2024-02-22T07:12:34Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Reasoning Circuits: Few-shot Multihop Question Generation with
Structured Rationales [11.068901022944015]
連鎖論理生成は多段階推論タスクの性能を向上させることが示されている。
極めて低い監督体制下でのマルチホップ質問生成にチェーン・オブ・インスパイアされた構造的合理的生成を適用するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2022-11-15T19:36:06Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - (De-)Randomized Smoothing for Decision Stump Ensembles [5.161531917413708]
ツリーベースモデルは、金融や医療など、多くの高度なアプリケーションドメインで使われている。
本稿では,決定スタンプアンサンブルに対する決定論的スムース化を提案する。
決定論的ロバスト性証明は,数値的特徴と分類的特徴を併せ持つものである。
論文 参考訳(メタデータ) (2022-05-27T11:23:50Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。