論文の概要: From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2507.02984v1
- Date: Tue, 01 Jul 2025 08:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.499261
- Title: From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought
- Title(参考訳): 回答から合理へ:回答指向の連鎖による自己調整型マルチモーダル推論
- Authors: Wentao Tan, Qiong Cao, Yibing Zhan, Chao Xue, Changxing Ding,
- Abstract要約: 現在の方法論は、主に正の有理を合成することに焦点を当て、一方で、欠陥のある推論パターンを識別する訓練モデルにおける負の有理の批判的役割を見落としている。
textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswer-Otextbfriented Chain-of-textbfThought。
このフレームワークは、AoT-Oriented Chain-of-Thoughtプロンプトを使用して、高品質な正および負の推論パスを自動的に生成することを可能にする。
- 参考スコア(独自算出の注目度): 43.07899102255169
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving human-like reasoning capabilities in Multimodal Large Language Models (MLLMs) has long been a goal. Current methodologies primarily focus on synthesizing positive rationales, while overlooking the critical role of negative rationales in training models to discern flawed reasoning patterns. To address this gap, we propose a novel framework: \textbf{S}elf-Aligning \textbf{M}ultimodal Reasoning with \textbf{A}nswer-O\textbf{r}iented Chain-of-\textbf{T}hought (SMART). This framework enables models to utilize AoT-Oriented Chain-of-Thought (AoT) prompts to automatically generate high-quality positive and negative reasoning paths, followed by self-alignment to enhance their reasoning abilities. Inspired by human strategies for solving proof-based problems, AoT uses answers as a guide to help the model extract critical visual information that links questions and answers. When provided with ground truth answers, the model produces strong positive rationales. Conversely, when correct answers are replaced with misleading alternatives, the model generates an erroneous yet compelling reasoning path, serving as a form of discriminative negative rationale. Models trained with AoT-generated data outperform those trained on manually annotated datasets, demonstrating superior reasoning capabilities. This encourages the use of improved models to generate higher-quality preference data for further optimization. Consequently, SMART establishes an iterative generation-optimization method that continually enhances the model's reasoning skills. Experiments indicate that the SMART framework significantly improves various MLLMs, regardless of model architecture, parameter size, or pre-training dataset. The code, datasets, and models will be released.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)におけるヒューマンライクな推論能力の実現は,長年にわたって目標とされてきた。
現在の方法論は、主に正の有理を合成することに焦点を当て、一方で、欠陥のある推論パターンを識別する訓練モデルにおける負の有理の批判的役割を見落としている。
このギャップに対処するために、新しいフレームワークを提案する。 \textbf{S}elf-Aligning \textbf{M}ultimodal Reasoning with \textbf{A}nswer-O\textbf{r}iented Chain-of-\textbf{T}hought (SMART)。
このフレームワークは、AoT-Oriented Chain-of-Thought(AoT)のプロンプトを利用して、高品質でポジティブな推論パスとネガティブな推論パスを自動生成する。
証明に基づく問題を解決するための人間の戦略にインスパイアされたAoTは、モデルが質問と回答をリンクする重要な視覚情報を抽出するのを助けるためのガイドとして、回答を使用する。
基礎的な真理の答えが与えられると、モデルは強い正の有理性を生み出す。
逆に、正しい答えを誤解を招く別の選択肢に置き換えると、モデルは誤ったが説得力のある推論経路を生成し、差別的な否定的論理の形式として機能する。
AoT生成データでトレーニングされたモデルは、手動でアノテートされたデータセットでトレーニングされたモデルよりも優れており、優れた推論能力を示している。
これにより、改善されたモデルを使用することで、さらなる最適化のために高品質な嗜好データを生成することができる。
その結果、SMARTはモデルの推論スキルを継続的に強化する反復生成最適化法を確立した。
実験の結果、SMARTフレームワークはモデルアーキテクチャ、パラメータサイズ、事前トレーニングデータセットに関わらず、さまざまなMLLMを大幅に改善することが示された。
コード、データセット、モデルがリリースされる。
関連論文リスト
- One Token to Fool LLM-as-a-Judge [31.421917676213415]
ジェネレーティブ報酬モデル(LLMs-as-judgesとも呼ばれる)は、強化学習においてますます採用されている。
生成報酬モデルが表面操作に驚くべき脆弱性を示すことを示す。
我々は、単純だが効果的なデータ拡張戦略を導入し、ロバスト性を大幅に向上した新しい生成報酬モデルを訓練する。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - MARGE: Improving Math Reasoning for LLMs with Guided Exploration [31.311075009100048]
大規模言語モデル(LLM)は、数学的推論において強い可能性を示すが、その有効性は高品質なクエリの不足によって制限されることが多い。
textbfMath textbfReasoning with textbfGuided textbfExploration。
MARGEは、自己生成ソリューションに由来する中間的推論状態を体系的に探索し、適切な探索と信用割当の改善を可能にする。
論文 参考訳(メタデータ) (2025-05-18T17:24:16Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。