論文の概要: From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2507.02984v2
- Date: Mon, 28 Jul 2025 05:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.840429
- Title: From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought
- Title(参考訳): 回答から合理へ:回答指向の連鎖による自己調整型マルチモーダル推論
- Authors: Wentao Tan, Qiong Cao, Yibing Zhan, Chao Xue, Changxing Ding,
- Abstract要約: 現在のメソッドは主に肯定的な論理に重点を置いており、通常は手動のアノテーションや複雑なシステムに依存している。
textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswertextbfriented Chain-of-textbfThought。
- 参考スコア(独自算出の注目度): 43.07899102255169
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving human-like reasoning capabilities in Multimodal Large Language Models (MLLMs) has long been a goal. Current methods primarily focus on synthesizing positive rationales, typically relying on manual annotations or complex systems. Moreover, they often overlook negative reasoning, which limits the model's generalization ability and robustness in multimodal inference. To address this gap, we propose a novel framework: \textbf{S}elf-Aligning \textbf{M}ultimodal Reasoning with \textbf{A}nswer-O\textbf{r}iented Chain-of-\textbf{T}hought (SMART). SMART employs an answer-oriented chain-of-thought (AoT) prompt to automatically construct high-quality data. Drawing inspiration from human proof-based strategies, AoT leverages both correct and incorrect answers to extract key visual information that links questions and answers. When provided with correct answers, the model produces strong positive rationales. Conversely, when correct answers are replaced with incorrect alternatives, the model generates an erroneous yet compelling reasoning path, serving as a form of discriminative negative rationale. Models trained with AoT-generated data outperform those trained on manually annotated datasets, demonstrating superior reasoning capabilities. Consequently, SMART establishes an iterative generation-optimization method that continually enhances the model's reasoning skills. Experiments indicate that the SMART framework significantly improves various MLLMs, regardless of model architecture, parameter size, or pre-training dataset. The code is available at https://github.com/WentaoTan/SMART.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)におけるヒューマンライクな推論能力の実現は,長年にわたって目標とされてきた。
現在の手法は主に正の有理を合成することに焦点を当てており、通常は手動のアノテーションや複雑なシステムに依存している。
さらに、それらはしばしば負の推論を見落とし、これはモデルの一般化能力とマルチモーダル推論の堅牢性を制限する。
このギャップに対処するために、新しいフレームワークを提案する。 \textbf{S}elf-Aligning \textbf{M}ultimodal Reasoning with \textbf{A}nswer-O\textbf{r}iented Chain-of-\textbf{T}hought (SMART)。
SMARTは回答指向のチェーン・オブ・シークレット(AoT)プロンプトを使用して、高品質なデータを自動的に構築する。
人間の証明に基づく戦略からインスピレーションを得たAoTは、正解と誤答の両方を利用して、質問と回答を結びつける重要な視覚情報を抽出する。
正しい答えを与えると、モデルは強い正の有理数を生成する。
逆に、正しい答えを誤った代替品に置き換えると、モデルは誤ったが説得力のある推論経路を生成し、差別的な否定的論理の形式として機能する。
AoT生成データでトレーニングされたモデルは、手動でアノテートされたデータセットでトレーニングされたモデルよりも優れており、優れた推論能力を示している。
その結果、SMARTはモデルの推論スキルを継続的に強化する反復生成最適化法を確立した。
実験の結果、SMARTフレームワークはモデルアーキテクチャ、パラメータサイズ、事前トレーニングデータセットに関わらず、さまざまなMLLMを大幅に改善することが示された。
コードはhttps://github.com/WentaoTan/SMARTで公開されている。
関連論文リスト
- Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。